{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T02:32:54Z","timestamp":1780367574833,"version":"3.54.1"},"publisher-location":"New York, NY, USA","reference-count":36,"publisher":"ACM","license":[{"start":{"date-parts":[[2021,10,17]],"date-time":"2021-10-17T00:00:00Z","timestamp":1634428800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2021,10,17]]},"DOI":"10.1145\/3474085.3475233","type":"proceedings-article","created":{"date-parts":[[2021,10,18]],"date-time":"2021-10-18T20:56:12Z","timestamp":1634590572000},"page":"686-694","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":12,"title":["Semantic-aware Transfer with Instance-adaptive Parsing for Crowded Scenes Pose Estimation"],"prefix":"10.1145","author":[{"given":"Xuanhan","family":"Wang","sequence":"first","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Lianli","family":"Gao","sequence":"additional","affiliation":[{"name":"University of Electronic Science and\u00a0Technology of China, Chengdu, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yan","family":"Dai","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yixuan","family":"Zhou","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jingkuan","family":"Song","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2021,10,17]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. CoRR","author":"Cao Zhe","year":"2018"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"crossref","unstructured":"Jo a o Carreira and Andrew Zisserman. 2017. Quo Vadis Action Recognition? A New Model and the Kinetics Dataset. In CVPR.  Jo a o Carreira and Andrew Zisserman. 2017. Quo Vadis Action Recognition? A New Model and the Kinetics Dataset. In CVPR.","DOI":"10.1109\/CVPR.2017.502"},{"key":"e_1_3_2_1_3_1","volume-title":"Chen Change Loy, and Dahua Lin","author":"Chen Kai","year":"2019"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"crossref","unstructured":"Liang-Chieh Chen Alexander Hermans George Papandreou Florian Schroff Peng Wang and Hartwig Adam. 2018. MaskLab: Instance Segmentation by Refining Object Detection With Semantic and Direction Features. In CVPR.  Liang-Chieh Chen Alexander Hermans George Papandreou Florian Schroff Peng Wang and Hartwig Adam. 2018. MaskLab: Instance Segmentation by Refining Object Detection With Semantic and Direction Features. In CVPR.","DOI":"10.1109\/CVPR.2018.00422"},{"key":"e_1_3_2_1_5_1","volume-title":"Hierarchical LSTMs with Adaptive Attention for Visual Captioning","author":"Gao Lianli","year":"2020"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"crossref","unstructured":"Riza Alp G\u00fc ler Natalia Neverova and Iasonas Kokkinos. 2018. DensePose: Dense Human Pose Estimation in the Wild. In CVPR.  Riza Alp G\u00fc ler Natalia Neverova and Iasonas Kokkinos. 2018. DensePose: Dense Human Pose Estimation in the Wild. In CVPR.","DOI":"10.1109\/CVPR.2018.00762"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3350856"},{"key":"e_1_3_2_1_8_1","volume-title":"Piotr Doll\u00e1 r, and Ross B. Girshick","author":"He Kaiming","year":"2017"},{"key":"e_1_3_2_1_9_1","unstructured":"Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In CVPR.  Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In CVPR."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"crossref","unstructured":"Junjie Huang Zheng Zhu Feng Guo and Guan Huang. 2020. The Devil Is in the Details: Delving Into Unbiased Data Processing for Human Pose Estimation. In CVPR. 5699--5708.  Junjie Huang Zheng Zhu Feng Guo and Guan Huang. 2020. The Devil Is in the Details: Delving Into Unbiased Data Processing for Human Pose Estimation. In CVPR. 5699--5708.","DOI":"10.1109\/CVPR42600.2020.00574"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"crossref","unstructured":"Sheng Jin Wentao Liu Enze Xie Wenhai Wang Chen Qian Wanli Ouyang and Ping Luo. 2020. Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation. In ECCV.  Sheng Jin Wentao Liu Enze Xie Wenhai Wang Chen Qian Wanli Ouyang and Ping Luo. 2020. Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation. In ECCV.","DOI":"10.1007\/978-3-030-58571-6_42"},{"key":"e_1_3_2_1_12_1","volume-title":"Late Temporal Modeling in 3D CNN Architectures with BERT for Action Recognition. arXiv preprint arXiv:2008.01232","author":"Kalfaoglu M. Esat","year":"2021"},{"key":"e_1_3_2_1_13_1","unstructured":"Jiefeng Li Can Wang Hao Zhu Yihuan Mao Hao-Shu Fang and Cewu Lu. 2019 c. CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark. In CVPR.  Jiefeng Li Can Wang Hao Zhu Yihuan Mao Hao-Shu Fang and Cewu Lu. 2019 c. CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark. In CVPR."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3350971"},{"key":"e_1_3_2_1_15_1","volume-title":"Scale-Aware Trident Networks for Object Detection. In ICCV","author":"Li Yanghao","year":"2019"},{"key":"e_1_3_2_1_16_1","volume-title":"Fully Convolutional Networks for Panoptic Segmentation. arXiv preprint arXiv:2012.00720","author":"Li Yanwei","year":"2021"},{"key":"e_1_3_2_1_17_1","volume":"201","author":"Lin Tsung-Yi","journal-title":"Serge J. Belongie."},{"key":"e_1_3_2_1_18_1","volume-title":"Piotr Doll\u00e1 r, and C. Lawrence Zitnick","author":"Lin Tsung-Yi","year":"2014"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.5555\/3327546.3327630"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.5555\/3294771.3294988"},{"key":"e_1_3_2_1_21_1","unstructured":"Xuecheng Nie Jiashi Feng Jianfeng Zhang and Shuicheng Yan. 2019. Single-Stage Multi-Person Pose Machines. In ICCV. 6950--6959.  Xuecheng Nie Jiashi Feng Jianfeng Zhang and Shuicheng Yan. 2019. Single-Stage Multi-Person Pose Machines. In ICCV. 6950--6959."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"crossref","unstructured":"George Papandreou Tyler Zhu Nori Kanazawa Alexander Toshev Jonathan Tompson Chris Bregler and Kevin Murphy. 2017. Towards Accurate Multi-person Pose Estimation in the Wild. In CVPR.  George Papandreou Tyler Zhu Nori Kanazawa Alexander Toshev Jonathan Tompson Chris Bregler and Kevin Murphy. 2017. Towards Accurate Multi-person Pose Estimation in the Wild. In CVPR.","DOI":"10.1109\/CVPR.2017.395"},{"key":"e_1_3_2_1_23_1","unstructured":"Lingteng Qiu Xuanye Zhang Yanran Li Guanbin Li Xiaojun Wu Zixiang Xiong Xiaoguang Han and Shuguang Cui. 2020. Peeking into occluded joints: A novel framework for crowd pose estimation. In ECCV.  Lingteng Qiu Xuanye Zhang Yanran Li Guanbin Li Xiaojun Wu Zixiang Xiong Xiaoguang Han and Shuguang Cui. 2020. Peeking into occluded joints: A novel framework for crowd pose estimation. In ECCV."},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2577031"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2814344"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"crossref","unstructured":"Ke Sun Bin Xiao Dong Liu and Jingdong Wang. 2019. Deep High-Resolution Representation Learning for Human Pose Estimation. In CVPR. 5693--5703.  Ke Sun Bin Xiao Dong Liu and Jingdong Wang. 2019. Deep High-Resolution Representation Learning for Human Pose Estimation. In CVPR. 5693--5703.","DOI":"10.1109\/CVPR.2019.00584"},{"key":"e_1_3_2_1_27_1","volume-title":"DirectPose: Direct End-to-End Multi-Person Pose Estimation. CoRR","author":"Tian Zhi","year":"2019"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"crossref","unstructured":"Zhi Tian Chunhua Shen and Hao Chen. 2020. Conditional Convolutions for Instance Segmentation. In ECCV.  Zhi Tian Chunhua Shen and Hao Chen. 2020. Conditional Convolutions for Instance Segmentation. In ECCV.","DOI":"10.1007\/978-3-030-58452-8_17"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3414014"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2749159"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"crossref","unstructured":"Fangyun Wei Xiao Sun Hongyang Li Jingdong Wang and Stephen Lin. 2020. Point-Set Anchors for Object Detection Instance Segmentation and Pose Estimation. In ECCV. 527--544.  Fangyun Wei Xiao Sun Hongyang Li Jingdong Wang and Stephen Lin. 2020. Point-Set Anchors for Object Detection Instance Segmentation and Pose Estimation. In ECCV. 527--544.","DOI":"10.1007\/978-3-030-58607-2_31"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"crossref","unstructured":"Bin Xiao Haiping Wu and Yichen Wei. 2018. Simple Baselines for Human Pose Estimation and Tracking. In ECCV.  Bin Xiao Haiping Wu and Yichen Wei. 2018. Simple Baselines for Human Pose Estimation and Tracking. In ECCV.","DOI":"10.1007\/978-3-030-01231-1_29"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.5555\/3454287.3454404"},{"key":"e_1_3_2_1_34_1","volume-title":"Zeiler and Rob Fergus","author":"Matthew","year":"2014"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"crossref","unstructured":"Feng Zhang Xiatian Zhu Hanbin Dai Mao Ye and Ce Zhu. 2020. Distribution-Aware Coordinate Representation for Human Pose Estimation. In CVPR. 7091--7100.  Feng Zhang Xiatian Zhu Hanbin Dai Mao Ye and Ce Zhu. 2020. Distribution-Aware Coordinate Representation for Human Pose Estimation. In CVPR. 7091--7100.","DOI":"10.1109\/CVPR42600.2020.00712"},{"key":"e_1_3_2_1_36_1","volume-title":"Objects as Points. CoRR","author":"Zhou Xingyi","year":"2019"}],"event":{"name":"MM '21: ACM Multimedia Conference","location":"Virtual Event China","acronym":"MM '21","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 29th ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3474085.3475233","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3474085.3475233","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T20:48:16Z","timestamp":1750193296000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3474085.3475233"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,10,17]]},"references-count":36,"alternative-id":["10.1145\/3474085.3475233","10.1145\/3474085"],"URL":"https:\/\/doi.org\/10.1145\/3474085.3475233","relation":{},"subject":[],"published":{"date-parts":[[2021,10,17]]},"assertion":[{"value":"2021-10-17","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}