{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,15]],"date-time":"2026-04-15T13:33:27Z","timestamp":1776260007283,"version":"3.50.1"},"reference-count":45,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"Center for Innovative Research on Aging Society (CIRAS) from the Featured Areas Research Center Program within the framework of the Higher Education Sprout Project by the Ministry of Education"},{"DOI":"10.13039\/501100004663","name":"Ministry of Science and Technology, Taiwan","doi-asserted-by":"publisher","award":["MOST 108-2221-E-194-054"],"award-info":[{"award-number":["MOST 108-2221-E-194-054"]}],"id":[{"id":"10.13039\/501100004663","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004663","name":"Ministry of Science and Technology, Taiwan","doi-asserted-by":"publisher","award":["106-2221-E-194-046-MY2"],"award-info":[{"award-number":["106-2221-E-194-046-MY2"]}],"id":[{"id":"10.13039\/501100004663","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2021]]},"DOI":"10.1109\/access.2020.3048741","type":"journal-article","created":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T20:35:28Z","timestamp":1609533328000},"page":"6164-6178","source":"Crossref","is-referenced-by-count":26,"title":["Deep Neural Networks Using Capsule Networks and Skeleton-Based Attentions for Action Recognition"],"prefix":"10.1109","volume":"9","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5782-6829","authenticated-orcid":false,"given":"Manh-Hung","family":"Ha","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5172-9913","authenticated-orcid":false,"given":"Oscal Tzyh-Chiang","family":"Chen","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","article-title":"ConvNet architecture search for spatiotemporal feature learning","author":"tran","year":"2017","journal-title":"arXiv 1708 05038"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.590"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-74936-3_22"},{"key":"ref32","first-page":"7610","article-title":"Videocapsulenet: A simplified network for action detection","author":"duarte","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2018.2873892"},{"key":"ref30","first-page":"1","article-title":"Matrix capsules with EM routing","author":"hinton","year":"2018","journal-title":"Proc Int Conf Learn Represent"},{"key":"ref37","first-page":"1","article-title":"Computation-affordable recognition system for activity identification using a smart phone at home","author":"chen","year":"2020","journal-title":"Proc IEEE Int Symp Circuits Syst (ISCAS)"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/KST.2018.8426164"},{"key":"ref35","article-title":"Home activity log and life care using panoramic videos","author":"chen","year":"2016","journal-title":"Proc ISG 10th World Conf Gerontechnol"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/AVSS.2017.8078546"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.143"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01267-0_19"},{"key":"ref11","first-page":"601","article-title":"Skeleton based action recognition using translation-scale invariant image mapping and multi-scale deep CNN","author":"li","year":"2017","journal-title":"Proc IEEE Int Conf Multimedia Expo Workshops (ICMEW)"},{"key":"ref12","first-page":"2048","article-title":"Show, attend and tell: Neural image caption generation with visual attention","author":"xu","year":"2015","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref13","article-title":"Action recognition using visual attention","author":"sharma","year":"2015","journal-title":"arXiv 1511 04119"},{"key":"ref14","article-title":"Initialization strategies of spatio-temporal convolutional neural networks","author":"mansimov","year":"2015","journal-title":"arXiv 1503 07274"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2018.2862341"},{"key":"ref16","article-title":"UCF101: A dataset of 101 human actions classes from videos in the wild","author":"soomro","year":"2012","journal-title":"arXiv 1212 0402"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.502"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00807"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/SIBGRAPI.2019.00011"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00539"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.486"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01098"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01246-5_22"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/AVSS.2019.8909840"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00155"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2019.00303"},{"key":"ref7","first-page":"3856","article-title":"Dynamic routing between capsules","author":"sabour","year":"2017","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.223"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2019.00247"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2017.2655624"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.213"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10590-1_53"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46484-8_2"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00879"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01233"},{"key":"ref24","first-page":"1146","article-title":"LCR-Net++: Multi-person 2D and 3D pose detection in natural images","volume":"42","author":"rogez","year":"2020","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"ref41","first-page":"204","article-title":"Beyond Gaussian pyramid: Multi-skip feature stacking for action recognition","author":"lan","year":"2015","journal-title":"Proc IEEE Conf Comput Vis Pattern Recognit (CVPR)"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.236"},{"key":"ref44","article-title":"Batch normalization: Accelerating deep network training by reducing internal covariate shift","author":"ioffe","year":"2015","journal-title":"arXiv 1502 03167"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2018.2864148"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1016\/j.future.2019.01.029"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00734"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/9312710\/09312030.pdf?arnumber=9312030","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2021,12,17]],"date-time":"2021-12-17T19:55:56Z","timestamp":1639770956000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9312030\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021]]},"references-count":45,"URL":"https:\/\/doi.org\/10.1109\/access.2020.3048741","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021]]}}}