{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,30]],"date-time":"2026-05-30T06:03:40Z","timestamp":1780121020932,"version":"3.54.0"},"reference-count":42,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100018537","name":"National Science and Technology Major Project","doi-asserted-by":"publisher","award":["2024ZD1300700"],"award-info":[{"award-number":["2024ZD1300700"]}],"id":[{"id":"10.13039\/501100018537","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition"],"published-print":{"date-parts":[[2026,11]]},"DOI":"10.1016\/j.patcog.2026.113547","type":"journal-article","created":{"date-parts":[[2026,3,19]],"date-time":"2026-03-19T08:34:29Z","timestamp":1773909269000},"page":"113547","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"PB","title":["Parse graph-based visual-language interaction for human pose estimation"],"prefix":"10.1016","volume":"179","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-7572-3667","authenticated-orcid":false,"given":"Shibang","family":"Liu","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7857-0845","authenticated-orcid":false,"given":"Xuemei","family":"Xie","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Guangming","family":"Shi","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.patcog.2026.113547_bib0001","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.110654","article-title":"AnatPose: bidirectionally learning anatomy-aware heatmaps for human pose estimation","volume":"155","author":"Du","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113547_bib0002","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2022.108579","article-title":"Low-resolution human pose estimation","volume":"126","author":"Wang","year":"2022","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113547_bib0003","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2021.107863","article-title":"An adversarial human pose estimation network injected with graph structure","volume":"115","author":"Tian","year":"2021","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113547_bib0004","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.111106","article-title":"Local and global self-attention enhanced graph convolutional network for skeleton-based action recognition","volume":"159","author":"Wu","year":"2025","journal-title":"Pattern Recognit."},{"issue":"4","key":"10.1016\/j.patcog.2026.113547_bib0005","doi-asserted-by":"crossref","first-page":"259","DOI":"10.1561\/0600000018","article-title":"A stochastic grammar of images","volume":"2","author":"Zhu","year":"2007","journal-title":"Found. Trends\u00ae Comput. Graph. Vision (FTCGV)"},{"key":"10.1016\/j.patcog.2026.113547_bib0006","unstructured":"S. Liu, X. Xie, G. Shi, Refinement Module based on Parse Graph of Feature Map for Human Pose Estimation, arXiv: 2501.11069(2025)."},{"issue":"12","key":"10.1016\/j.patcog.2026.113547_bib0007","doi-asserted-by":"crossref","first-page":"12692","DOI":"10.1109\/TCSVT.2024.3435014","article-title":"Human pose estimation via parse graph of body structure","volume":"34","author":"Liu","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"10","key":"10.1016\/j.patcog.2026.113547_bib0008","doi-asserted-by":"crossref","first-page":"1702","DOI":"10.1162\/jocn_a_00415","article-title":"Seeing objects through the language glass","volume":"25","author":"Boutonnet","year":"2013","journal-title":"J. Cogn. Neurosci."},{"issue":"25","key":"10.1016\/j.patcog.2026.113547_bib0009","doi-asserted-by":"crossref","first-page":"9329","DOI":"10.1523\/JNEUROSCI.5111-14.2015","article-title":"Words jump-start vision: a label advantage in object recognition","volume":"35","author":"Boutonnet","year":"2015","journal-title":"J. Neurosci."},{"key":"10.1016\/j.patcog.2026.113547_bib0010","series-title":"Proc. IEEE\/RSJ Int. Conf. Intell. Robots Syst. (IROS)","first-page":"3759","article-title":"LAMP: leveraging language prompts for multi-person pose estimation","author":"Hu","year":"2023"},{"key":"10.1016\/j.patcog.2026.113547_bib0011","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"23272","article-title":"CLAMP: prompt-based contrastive learning for connecting language and animal pose","author":"Zhang","year":"2023"},{"key":"10.1016\/j.patcog.2026.113547_bib0012","series-title":"Advances in Neural Inf. Process. Syst. (NIPS)","article-title":"ViLBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume":"Vol. 32","author":"Lu","year":"2019"},{"key":"10.1016\/j.patcog.2026.113547_bib0013","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"889","article-title":"Pose2Seg: detection free human instance segmentation","author":"Zhang","year":"2019"},{"key":"10.1016\/j.patcog.2026.113547_bib0014","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"10863","article-title":"CrowdPose: efficient crowded scenes pose estimation and a new benchmark","author":"Li","year":"2019"},{"key":"10.1016\/j.patcog.2026.113547_bib0015","series-title":"Proc. Asian Conf. Mach. Learn. (ACML)","first-page":"327","article-title":"Deep fully-connected part-based models for human pose estimation","author":"De Bem","year":"2018"},{"key":"10.1016\/j.patcog.2026.113547_bib0016","series-title":"Proc. Eur. Conf. Comput. Vis. (ECCV)","first-page":"190","article-title":"Deeply learned compositional models for human pose estimation","author":"Tang","year":"2018"},{"key":"10.1016\/j.patcog.2026.113547_bib0017","series-title":"Proc. Asia-Pacific Signal Inf. Process. Assoc. Annual Summit Conf. (APSIPA ASC)","first-page":"1287","article-title":"Human pose estimation using skeletal heatmaps","author":"Jun","year":"2020"},{"key":"10.1016\/j.patcog.2026.113547_bib0018","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"3674","article-title":"Vision-and-language navigation: interpreting visually-grounded navigation instructions in real environments","author":"Anderson","year":"2018"},{"key":"10.1016\/j.patcog.2026.113547_bib0019","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"2425","article-title":"VQA: visual question answering","author":"Antol","year":"2015"},{"key":"10.1016\/j.patcog.2026.113547_bib0020","first-page":"20450","article-title":"CLOOB: modern Hopfield networks with InfoLOOB outperform CLIP","volume":"35","author":"F\u00fcrst","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst. (NIPS)"},{"key":"10.1016\/j.patcog.2026.113547_bib0021","series-title":"Proc. Int. Conf. Mach. Learn. (ICML)","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.patcog.2026.113547_bib0022","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"18857","article-title":"PeVL: pose-enhanced vision-language model for fine-grained human action recognition","author":"Zhang","year":"2024"},{"key":"10.1016\/j.patcog.2026.113547_bib0023","series-title":"Advances in Neural Inf. Process. Syst. (NIPS)","article-title":"Attention is all you need","author":"Vaswani","year":"2017"},{"key":"10.1016\/j.patcog.2026.113547_bib0024","series-title":"Proc. Eur. Conf. Comput. Vis. (ECCV)","first-page":"483","article-title":"Stacked hourglass networks for human pose estimation","author":"Newell","year":"2016"},{"key":"10.1016\/j.patcog.2026.113547_bib0025","series-title":"Proc. IEEE\/CVF Int. Conf. Comput. Vis. (ICCV)","first-page":"1281","article-title":"Learning feature pyramids for human pose estimation","author":"Yang","year":"2017"},{"key":"10.1016\/j.patcog.2026.113547_bib0026","series-title":"Proc. Eur. Conf. Comput. Vis. (ECCV)","first-page":"466","article-title":"Simple baselines for human pose estimation and tracking","author":"Xiao","year":"2018"},{"key":"10.1016\/j.patcog.2026.113547_bib0027","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"5693","article-title":"Deep high-resolution representation learning for human pose estimation","author":"Sun","year":"2019"},{"key":"10.1016\/j.patcog.2026.113547_bib0028","series-title":"Advances in Neural Inf. Process. Syst. (NIPS)","first-page":"38571","article-title":"ViTPose: simple vision transformer baselines for human pose estimation","author":"Xu","year":"2022"},{"issue":"5","key":"10.1016\/j.patcog.2026.113547_bib0029","doi-asserted-by":"crossref","first-page":"3809","DOI":"10.1007\/s13042-024-02483-y","article-title":"A simple and efficient channel MLP on token for human pose estimation","volume":"16","author":"Huang","year":"2025","journal-title":"Int. J. Mach. Learn. Cybern."},{"key":"10.1016\/j.patcog.2026.113547_bib0030","series-title":"Proc. IEEE\/CVF Int. Conf. Comput. Vis. (ICCV)","first-page":"3122","article-title":"Multi-instance pose networks: rethinking top-down pose estimation","author":"Khirodkar","year":"2021"},{"key":"10.1016\/j.patcog.2026.113547_bib0031","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"1","article-title":"YOLOv3: an incremental improvement","author":"Redmon","year":"2018"},{"key":"10.1016\/j.patcog.2026.113547_bib0032","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"3686","article-title":"2D human pose estimation: new benchmark and state of the art analysis","author":"Andriluka","year":"2014"},{"key":"10.1016\/j.patcog.2026.113547_bib0033","series-title":"Proc. Eur. Conf. Comput. Vis. (ECCV)","first-page":"740","article-title":"Microsoft COCO: common objects in context","author":"Lin","year":"2014"},{"key":"10.1016\/j.patcog.2026.113547_bib0034","series-title":"NeurIPS Datasets and Benchmarks Track","article-title":"AP-10K: a benchmark for animal pose estimation in the wild","author":"Yu","year":"2026"},{"key":"10.1016\/j.patcog.2026.113547_bib0035","series-title":"Proc. IEEE\/CVF Int. Conf. Comput. Vis. (ICCV)","first-page":"9498","article-title":"Cross-domain adaptation for animal pose estimation","author":"Cao","year":"2019"},{"key":"10.1016\/j.patcog.2026.113547_bib0036","series-title":"Advances in Neural Inf. Process. Syst. (NIPS)","first-page":"7281","article-title":"HRFormer: high-resolution transformer for dense prediction","author":"Yuan","year":"2021"},{"issue":"7","key":"10.1016\/j.patcog.2026.113547_bib0037","doi-asserted-by":"crossref","first-page":"3858","DOI":"10.1007\/s11263-025-02355-0","article-title":"Learning structure-supporting dependencies via keypoint interactive transformer for general mammal pose estimation","volume":"133","author":"Xu","year":"2025","journal-title":"Int. J. Comput. Vision"},{"key":"10.1016\/j.patcog.2026.113547_bib0038","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"29438","article-title":"Probabilistic prompt distribution learning for animal pose estimation","author":"Rao","year":"2025"},{"key":"10.1016\/j.patcog.2026.113547_bib0039","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"7093","article-title":"Distribution-aware coordinate representation for human pose estimation","author":"Zhang","year":"2020"},{"key":"10.1016\/j.patcog.2026.113547_bib0040","series-title":"Proc. Int. Conf. Mach. Learn. (ICML)","first-page":"19730","article-title":"BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models","author":"Li","year":"2023"},{"key":"10.1016\/j.patcog.2026.113547_bib0041","series-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"248","article-title":"ImageNet: a large-scale hierarchical image database","author":"Deng","year":"2009"},{"key":"10.1016\/j.patcog.2026.113547_bib0042","series-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","article-title":"Decoupled weight decay regularization","author":"Loshchilov","year":"2026"}],"container-title":["Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326005133?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326005133?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,30]],"date-time":"2026-05-30T05:58:47Z","timestamp":1780120727000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0031320326005133"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,11]]},"references-count":42,"alternative-id":["S0031320326005133"],"URL":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113547","relation":{},"ISSN":["0031-3203"],"issn-type":[{"value":"0031-3203","type":"print"}],"subject":[],"published":{"date-parts":[[2026,11]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Parse graph-based visual-language interaction for human pose estimation","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113547","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Published by Elsevier Ltd.","name":"copyright","label":"Copyright"}],"article-number":"113547"}}