{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,17]],"date-time":"2025-11-17T01:10:24Z","timestamp":1763341824021,"version":"3.45.0"},"reference-count":50,"publisher":"Tech Science Press","issue":"2","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["CMC"],"published-print":{"date-parts":[[2025]]},"DOI":"10.32604\/cmc.2025.059006","type":"journal-article","created":{"date-parts":[[2025,3,17]],"date-time":"2025-03-17T04:19:16Z","timestamp":1742185156000},"page":"2735-2750","source":"Crossref","is-referenced-by-count":0,"title":["Token Masked Pose Transformers Are Efficient Learners"],"prefix":"10.32604","volume":"83","author":[{"given":"Xinyi","family":"Song","sequence":"first","affiliation":[]},{"given":"Haixiang","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Shaohua","family":"Li","sequence":"additional","affiliation":[]}],"member":"17807","published-online":{"date-parts":[[2025]]},"reference":[{"key":"ref1","series-title":"2023 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"660","article-title":"Human pose as compositional tokens","author":"Geng","year":"2023 Jun 17\u201324"},{"key":"ref2","first-page":"4489","article-title":"BCCLR: a skeleton-based action recognition with graph convolutional network combining behavior dependence and context clues","volume":"78","author":"Wang","year":"2024","journal-title":"Comput Mater Contin"},{"key":"ref3","series-title":"2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"1302","article-title":"Realtime multi-person 2D pose estimation using part affinity fields","author":"Cao","year":"2017 Jul 21\u201326"},{"key":"ref4","article-title":"A hybrid multi-person fall detection scheme based on optimized YOLO and ST-GCN","author":"Liu","year":"2024","journal-title":"Int J Interact Multimed Artif Intell"},{"key":"ref5","first-page":"2385","article-title":"A survey on deep learning-based 2D human pose estimation models","volume":"76","author":"Salisu","year":"2023","journal-title":"Comput Mater Contin"},{"key":"ref6","first-page":"6081","article-title":"Squirrel search optimization with deep convolutional neural network for human pose estimation","volume":"74","author":"Ishwarya","year":"2023","journal-title":"Comput Mater Contin"},{"key":"ref7","series-title":"2014 IEEE Conference on Computer Vision and Pattern Recognition","first-page":"1653","article-title":"DeepPose: human pose estimation via deep neural networks","volume":"2014","author":"Toshev","year":"2014 Jun 23\u201328"},{"key":"ref8","series-title":"2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"4724","article-title":"Convolutional pose machines","author":"Wei","year":"2016 Jun 27\u201330"},{"key":"ref9","doi-asserted-by":"crossref","first-page":"3002","DOI":"10.1049\/ipr2.12850","article-title":"CSIT: channel spatial integrated transformer for human pose estimation","volume":"17","author":"Li","year":"2023","journal-title":"IET Image Process"},{"key":"ref10","series-title":"2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"3711","article-title":"Towards accurate multi-person pose estimation in the wild","author":"Papandreou","year":"2017 Jul 21\u201326"},{"key":"ref11","doi-asserted-by":"crossref","first-page":"472","DOI":"10.1007\/978-3-030-01231-1_29","author":"Xiao","year":"2018","journal-title":"Computer vision\u2013ECCV 2018"},{"key":"ref12","doi-asserted-by":"crossref","first-page":"471","DOI":"10.1007\/978-3-030-84186-7_31","article-title":"A robustly optimized BERT pre-training approach with post-training","author":"Liu","year":"2021","journal-title":"Chinese computational linguistics"},{"key":"ref13","unstructured":"Radford A, Narasimhan K, Salimans T, Sutskever I. Improving language understanding by generative pre-training. 2018 [cited 2024 Dec 10]. Available from: https:\/\/www.mikecaptain.com\/resources\/pdf\/GPT-1.pdf."},{"key":"ref14","doi-asserted-by":"crossref","unstructured":"Lewis M, Liu Y, Goyal N, Ghazvininejad M, Mohamed A, Levy O, et al. BART: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. arXiv:1910.13461. 2019.","DOI":"10.18653\/v1\/2020.acl-main.703"},{"key":"ref15","first-page":"5485","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2020","journal-title":"J Mach Learn Res"},{"key":"ref16","unstructured":"Zhang S, Roller S, Goyal N, Artetxe M, Chen M, Chen S, et al. OPT: open pre-trained transformer language models. arXiv:2205.01068. 2022."},{"key":"ref17","first-page":"7281","article-title":"HRFormer: high-resolution vision transformer for dense predict","volume":"34","author":"Yuan","year":"2021","journal-title":"Adv Neural Inf Process Syst"},{"key":"ref18","unstructured":"Xu Y, Zhang J, Zhang Q, Tao D. ViTPose: simple vision transformer baselines for human pose estimation. arXiv:2204.12484. 2022."},{"key":"ref19","unstructured":"Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X, Unterthiner T, et al. An image is worth 16 \u00d7 16 words: transformers for image recognition at scale. arXiv:2010.11929. 2020."},{"key":"ref20","unstructured":"Han K, Xiao A, Wu E, Guo J, Xu C, Wang Y. Transformer in transformer. arXiv:2103.00112. 2021."},{"key":"ref21","series-title":"2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"6881","article-title":"Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers","author":"Zheng","year":"2021 Jun 20\u201325"},{"key":"ref22","unstructured":"Zhu X, Su W, Lu L, Li B, Wang X, Dai J. Deformable detr: deformable transformers for end-to-end object detection. arXiv:2010.04159. 2020."},{"key":"ref23","series-title":"2021 IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"11293","article-title":"TokenPose: learning keypoint tokens for human pose estimation","author":"Li","year":"2021 Oct 10\u201317"},{"key":"ref24","series-title":"2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"15979","article-title":"Masked autoencoders are scalable vision learners","author":"He","year":"2022 Jun 18\u201324"},{"key":"ref25","unstructured":"Bao H, Dong L, Piao S, Wei F. Beit: bert pre-training of image transformers. arXiv:2106.08254. 2021."},{"key":"ref26","series-title":"2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"8741","article-title":"End-to-end video instance segmentation with transformers","author":"Wang","year":"2021 Jun 20\u201325"},{"key":"ref27","unstructured":"Han S, Mao H, Dally WJ. Deep compression: compressing deep neural networks with pruning, trained quantization and huffman coding. arXiv: 1510.00149. 2015."},{"key":"ref28","unstructured":"Chen T, Cheng Y, Gan Z, Yuan L, Zhang L, Wang Z. Chasing sparsity in vision transformers: an end-to-end exploration. arXiv:2106.04533. 2021."},{"key":"ref29","unstructured":"Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network. arXiv:1503.02531. 2015."},{"key":"ref30","series-title":"2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"12042","article-title":"DearKD: data-efficient early knowledge distillation for vision transformers","author":"Chen","year":"2022 Jun 18\u201324"},{"key":"ref31","first-page":"8815","article-title":"Q-BERT: hessian based ultra low precision quantization of BERT","volume":"34","author":"Shen","year":"2020","journal-title":"Proc AAAI Conf Artif Intell"},{"key":"ref32","unstructured":"Sun M, Ma H, Kang G, Jiang Y, Chen T, Ma X, et al. VAQF: fully automatic software-hardware co-design framework for low-bit vision transformer. arXiv:2201.06618. 2022."},{"key":"ref33","series-title":"2023 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"23390","article-title":"Scaling language-image pre-training via masking","author":"Li","year":"2023 Jun 17\u201324"},{"key":"ref34","series-title":"2021 IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"538","article-title":"Tokens-to-Token ViT: training vision transformers from scratch on ImageNet","author":"Yuan","year":"2021 Oct 10\u201317"},{"key":"ref35","unstructured":"Rao Y, Zhao W, Liu B, Lu J, Zhou J, Hsieh CJ. DynamicViT: efficient vision transformers with dynamic token sparsification. arXiv:2106.02034. 2021."},{"key":"ref36","doi-asserted-by":"crossref","first-page":"424","DOI":"10.1007\/978-3-031-20065-6_25","author":"Ma","year":"2022","journal-title":"Computer vision-ECCV 2022"},{"key":"ref37","series-title":"2021 IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"11782","article-title":"TransPose: keypoint localization via transformer","author":"Yang","year":"2017 Oct 10\u201317"},{"key":"ref38","doi-asserted-by":"crossref","unstructured":"Mao W, Ge Y, Shen C, Tian Z, Wang X, Wang Z. TFPose: direct human pose estimation with transformers. arXiv:2103.15320. 2021.","DOI":"10.1007\/978-3-031-20068-7_5"},{"key":"ref39","series-title":"2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"1944","article-title":"Pose recognition with cascade transformers","author":"Li","year":"2021 Jun 20\u201325"},{"key":"ref40","series-title":"2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"1954","article-title":"End-to-end human pose and mesh reconstruction with transformers","author":"Lin","year":"2021 Jun 20\u201325"},{"key":"ref41","series-title":"2021 IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"11636","article-title":"3D human pose estimation with spatial and temporal transformers","author":"Zheng","year":"2021 Oct 10\u201317"},{"key":"ref42","first-page":"559","author":"Zhao","year":"2022","journal-title":"Artificial intelligence"},{"key":"ref43","series-title":"2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"5693","article-title":"Deep high-resolution representation learning for human pose estimation","author":"Sun","year":"2019 Jun 15\u201320"},{"key":"ref44","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al. Attention is all you need. arXiv:1706.03762. 2017."},{"key":"ref45","series-title":"Computer Vision\u2013ECCV 2014: 13th European Conference","first-page":"740","article-title":"Microsoft COCO: common objects in context","author":"Lin","year":"2014 Sep 6\u201312"},{"key":"ref46","series-title":"2014 IEEE Conference on Computer Vision and Pattern Recognition","first-page":"3686","article-title":"2D human pose estimation: new benchmark and state of the art analysis","author":"Andriluka","year":"2014 Jun 23\u201328"},{"key":"ref47","series-title":"2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"10440","article-title":"Lite-HRNet: a lightweight high-resolution network","author":"Yu","year":"2021 Jun 20\u201325"},{"key":"ref48","doi-asserted-by":"crossref","first-page":"335","DOI":"10.1007\/s41095-021-0214-z","article-title":"EfficientPose: efficient human pose estimation with neural architecture search","volume":"7","author":"Zhang","year":"2021","journal-title":"Comput Vis Medium"},{"key":"ref49","first-page":"3379","article-title":"Full scale-aware balanced high-resolution network for multi-person pose estimation","volume":"76","author":"Li","year":"2023","journal-title":"Comput Mater Contin"},{"key":"ref50","series-title":"ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"5100","article-title":"Efficient posenet with coarse to fine transformer","author":"Li","year":"2024 Apr 14\u201319"}],"container-title":["Computers, Materials &amp; Continua"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/cdn.techscience.cn\/files\/cmc\/2025\/TSP_CMC-83-2\/TSP_CMC_59006\/TSP_CMC_59006.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,17]],"date-time":"2025-11-17T01:07:00Z","timestamp":1763341620000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.techscience.com\/cmc\/v83n2\/60517"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":50,"journal-issue":{"issue":"2","published-online":{"date-parts":[[2025]]},"published-print":{"date-parts":[[2025]]}},"URL":"https:\/\/doi.org\/10.32604\/cmc.2025.059006","relation":{},"ISSN":["1546-2226"],"issn-type":[{"type":"electronic","value":"1546-2226"}],"subject":[],"published":{"date-parts":[[2025]]}}}