{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,13]],"date-time":"2026-05-13T08:56:34Z","timestamp":1778662594685,"version":"3.51.4"},"reference-count":56,"publisher":"Institution of Engineering and Technology (IET)","issue":"7","license":[{"start":{"date-parts":[[2017,8,18]],"date-time":"2017-08-18T00:00:00Z","timestamp":1503014400000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/onlinelibrary.wiley.com\/termsAndConditions#vor"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IET Computer Vision"],"published-print":{"date-parts":[[2017,10]]},"abstract":"<jats:p>This study addresses the problem of efficiently combining the joint, RGB and depth modalities of the Kinect sensor in order to recognise human actions. For this purpose, a multi\u2010layered fusion scheme concatenates different specific features, builds specialised local and global SVM models and then iteratively fuses their different scores. The authors essentially contribute in two levels: (i) they combine the performance of local descriptors with the strength of global bags\u2010of\u2010visual\u2010words representations. They are able then to generate improved local decisions that allow noisy frames handling. (ii) They also study the performance of multiple fusion schemes guided by different features concatenations, Fisher vectors representations concatenation and later iterative scores fusion. To prove the efficiency of their approach, they have evaluated their experiments on two challenging public datasets: CAD\u201060 and CGC\u20102014. Competitive results are obtained for both benchmarks.<\/jats:p>","DOI":"10.1049\/iet-cvi.2016.0326","type":"journal-article","created":{"date-parts":[[2017,4,28]],"date-time":"2017-04-28T22:14:27Z","timestamp":1493417667000},"page":"530-540","source":"Crossref","is-referenced-by-count":15,"title":["Human\u2010action recognition using a multi\u2010layered fusion scheme of Kinect modalities"],"prefix":"10.1049","volume":"11","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-0617-686X","authenticated-orcid":false,"given":"Bassem","family":"Seddik","sequence":"first","affiliation":[{"name":"LATIS Laboratory, National Engineering School of Sousse University of Sousse Sousse Tunisia"},{"name":"National Engineering School of Sfax University of Sfax Sfax Tunisia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sami","family":"Gazzah","sequence":"additional","affiliation":[{"name":"LATIS Laboratory, National Engineering School of Sousse University of Sousse Sousse Tunisia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Najoua","family":"Essoukri Ben Amara","sequence":"additional","affiliation":[{"name":"LATIS Laboratory, National Engineering School of Sousse University of Sousse Sousse Tunisia"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"265","published-online":{"date-parts":[[2017,8,18]]},"reference":[{"key":"e_1_2_7_2_2","doi-asserted-by":"publisher","DOI":"10.1049\/iet-cvi.2015.0321"},{"key":"e_1_2_7_3_2","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2014.04.011"},{"key":"e_1_2_7_4_2","doi-asserted-by":"publisher","DOI":"10.1049\/iet-cvi.2013.0323"},{"key":"e_1_2_7_5_2","doi-asserted-by":"publisher","DOI":"10.1049\/iet-cvi.2015.0291"},{"key":"e_1_2_7_6_2","doi-asserted-by":"publisher","DOI":"10.3389\/frobt.2015.00028"},{"key":"e_1_2_7_7_2","doi-asserted-by":"crossref","unstructured":"Haque A. Peng B. Luo Z. et al: \u2018Towards viewpoint invariant 3d human pose estimation\u2019.Proc. ECCV 2016 pp.160\u2013177","DOI":"10.1007\/978-3-319-46448-0_10"},{"key":"e_1_2_7_8_2","doi-asserted-by":"crossref","unstructured":"Wang L. Qiao Y. Tang X.: \u2018Video action detection with relational dynamic\u2010poselets\u2019.Proc. ECCV 2014 pp.565\u2013580","DOI":"10.1007\/978-3-319-10602-1_37"},{"key":"e_1_2_7_9_2","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-016-0917-2"},{"key":"e_1_2_7_10_2","doi-asserted-by":"crossref","unstructured":"Laptev I. Marszalek M. Schmid C. et al: \u2018Learning realistic human actions from movies\u2019.Proc. CVPR 2008 pp.1\u20138","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"e_1_2_7_11_2","doi-asserted-by":"crossref","unstructured":"Jhuang H. Gall J. Zuffi S. et al: \u2018Towards understanding action recognition\u2019.Proc. ICCV 2013 pp.3192\u20133199","DOI":"10.1109\/ICCV.2013.396"},{"key":"e_1_2_7_12_2","doi-asserted-by":"crossref","unstructured":"Sung J. Ponce C. Selman B. et al: \u2018Unstructured human activity detection from rgbd images\u2019.Proc. ICRA 2012 pp.842\u2013849","DOI":"10.1109\/ICRA.2012.6224591"},{"key":"e_1_2_7_13_2","doi-asserted-by":"publisher","DOI":"10.1007\/s00138-014-0596-3"},{"key":"e_1_2_7_14_2","doi-asserted-by":"crossref","unstructured":"Escalera S. Bar\u00f3 X. Gonz\u00e0lez J. et al: \u2018Chalearn looking at people challenge 2014: dataset and results\u2019.Proc. ECCV Workshops 2014 pp.459\u2013473","DOI":"10.1007\/978-3-319-16178-5_32"},{"key":"e_1_2_7_15_2","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2015.09.116"},{"key":"e_1_2_7_16_2","unstructured":"Krizhevsky A. Sutskever I. Hinton G.E.: \u2018ImageNet classification with deep convolutional neural networks\u2019.Proc. NIPS 2012 pp.1097\u20131105"},{"key":"e_1_2_7_17_2","doi-asserted-by":"crossref","unstructured":"Perronnin F. S\u00e1nchez J. Mensink T.: \u2018Improving the Fisher kernel for large\u2010scale image classification\u2019.Proc. ECCV 2010 pp.143\u2013156","DOI":"10.1007\/978-3-642-15561-1_11"},{"key":"e_1_2_7_18_2","doi-asserted-by":"crossref","unstructured":"Pfister T. Charles J. Zisserman A.: \u2018Flowing convNets for human pose estimation in videos\u2019.Proc. ICCV 2015 pp.1913\u20131921","DOI":"10.1109\/ICCV.2015.222"},{"key":"e_1_2_7_19_2","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2015.2461544"},{"key":"e_1_2_7_20_2","doi-asserted-by":"crossref","unstructured":"Wang L. Qiao Y. Tang X.: \u2018Action recognition with trajectory\u2010pooled deep\u2010convolutional descriptors\u2019.Proc. CVPR 2015 pp.4305\u20134314","DOI":"10.1109\/CVPR.2015.7299059"},{"key":"e_1_2_7_21_2","doi-asserted-by":"crossref","unstructured":"Seddik B. Gazzah S. Essoukri Ben Amara N.: \u2018Hands face and joints for multi\u2010modal human\u2010action temporal segmentation and recognition\u2019.Proc. EUSIPCO 2015 pp.1143\u20131147","DOI":"10.1109\/EUSIPCO.2015.7362562"},{"key":"e_1_2_7_22_2","doi-asserted-by":"crossref","unstructured":"Seddik B. Gazzah S. Essoukri Ben Amara N.: \u2018Modalities combination for Italian sign language extraction and recognition\u2019.Proc. ICIAP 2015 pp.710\u2013721","DOI":"10.1007\/978-3-319-23234-8_65"},{"key":"e_1_2_7_23_2","first-page":"2549","article-title":"One\u2010shot learning gesture recognition from rgb\u2010d data using bag of features","volume":"14","author":"Wan J.","year":"2013","journal-title":"J. Mach. Learn. Res."},{"key":"e_1_2_7_24_2","doi-asserted-by":"publisher","DOI":"10.1177\/0278364913478446"},{"key":"e_1_2_7_25_2","doi-asserted-by":"crossref","unstructured":"Camg\u00f6z N.C. Kindiroglu A.A. Akarun L.: \u2018Gesture recognition using template based random forest classifiers\u2019.Proc. ECCV Workshops 2014 pp.579\u2013594","DOI":"10.1007\/978-3-319-16178-5_41"},{"key":"e_1_2_7_26_2","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2016.04.005"},{"key":"e_1_2_7_27_2","doi-asserted-by":"publisher","DOI":"10.1109\/THMS.2014.2377111"},{"key":"e_1_2_7_28_2","doi-asserted-by":"crossref","unstructured":"Monnier C. German S. Ost A.: \u2018A multi\u2010scale boosted detector for efficient and robust gesture recognition\u2019.Proc. ECCV Workshops 2014 pp.491\u2013502","DOI":"10.1007\/978-3-319-16178-5_34"},{"key":"e_1_2_7_29_2","doi-asserted-by":"crossref","unstructured":"Shan J. Akella S.: \u20183d human action segmentation and recognition using pose kinetic energy\u2019.Proc. ARSO 2014 pp.69\u201375","DOI":"10.1109\/ARSO.2014.7020983"},{"key":"e_1_2_7_30_2","doi-asserted-by":"crossref","unstructured":"Zanfir M. Leordeanu M. Sminchisescu C.: \u2018The moving pose: an efficient 3d kinematics descriptor for low\u2010latency action recognition and detection\u2019.Proc. ICCV 2013 pp.2752\u20132759","DOI":"10.1109\/ICCV.2013.342"},{"key":"e_1_2_7_31_2","doi-asserted-by":"crossref","unstructured":"Chang J.Y.: \u2018Nonparametric gesture labeling from multi\u2010modal data\u2019.Proc. ECCV Workshops 2014 pp.503\u2013517","DOI":"10.1007\/978-3-319-16178-5_35"},{"key":"e_1_2_7_32_2","doi-asserted-by":"crossref","unstructured":"Faria D.R. Premebida C. Nunes U.: \u2018A probabilistic approach for human everyday activities recognition using body motion from rgb\u2010d images\u2019.Proc. RO\u2010MAN 2014 pp.732\u2013737","DOI":"10.1109\/ROMAN.2014.6926340"},{"key":"e_1_2_7_33_2","doi-asserted-by":"publisher","DOI":"10.1155\/2016\/4351435"},{"key":"e_1_2_7_34_2","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2015.2439257"},{"key":"e_1_2_7_35_2","doi-asserted-by":"publisher","DOI":"10.1049\/iet-cvi.2015.0233"},{"key":"e_1_2_7_36_2","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2013.09.009"},{"key":"e_1_2_7_37_2","doi-asserted-by":"crossref","unstructured":"Wang H. Kl\u00e4ser A. Schmid C. et al: \u2018Action recognition by dense trajectories\u2019.Proc. CVPR 2011 pp.3169\u20133176","DOI":"10.1109\/CVPR.2011.5995407"},{"key":"e_1_2_7_38_2","doi-asserted-by":"crossref","unstructured":"Wang H. Schmid C.: \u2018Action recognition with improved trajectories\u2019.Proc. ICCV 2013 pp.3551\u20133558","DOI":"10.1109\/ICCV.2013.441"},{"key":"e_1_2_7_39_2","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2013.10.010"},{"key":"e_1_2_7_40_2","doi-asserted-by":"crossref","unstructured":"Liang B. Zheng L.: \u2018Multi\u2010modal gesture recognition using skeletal joints and motion trail model\u2019.Proc. ECCV Workshops 2014 pp.623\u2013638","DOI":"10.1007\/978-3-319-16178-5_44"},{"key":"e_1_2_7_41_2","doi-asserted-by":"crossref","unstructured":"Oreifej O. Liu Z.: \u2018Hon4d: histogram of oriented 4d normals for activity recognition from depth sequences\u2019.Proc. CVPR 2013 pp.716\u2013723","DOI":"10.1109\/CVPR.2013.98"},{"key":"e_1_2_7_42_2","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2015.05.010"},{"key":"e_1_2_7_43_2","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2014.04.005"},{"key":"e_1_2_7_44_2","doi-asserted-by":"publisher","DOI":"10.3389\/fnbot.2015.00003"},{"key":"e_1_2_7_45_2","doi-asserted-by":"publisher","DOI":"10.1049\/iet-cvi.2013.0306"},{"key":"e_1_2_7_46_2","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2016.03.013"},{"key":"e_1_2_7_47_2","doi-asserted-by":"crossref","unstructured":"Peng X. Wang L. Cai Z. et al: \u2018Action and gesture temporal spotting with super vector representation\u2019.Proc. ECCV Workshops 2014 pp.518\u2013527","DOI":"10.1007\/978-3-319-16178-5_36"},{"key":"e_1_2_7_48_2","doi-asserted-by":"publisher","DOI":"10.1049\/iet-cvi.2013.0015"},{"key":"e_1_2_7_49_2","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2014.07.011"},{"key":"e_1_2_7_50_2","first-page":"1","article-title":"Beyond temporal pooling: recurrence and temporal convolutions for gesture recognition in video","volume":"124","author":"Pigou L.","year":"2016","journal-title":"Int. J. Comput. Vis."},{"key":"e_1_2_7_51_2","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2537340"},{"key":"e_1_2_7_52_2","doi-asserted-by":"publisher","DOI":"10.1049\/iet-cvi.2015.0235"},{"key":"e_1_2_7_53_2","doi-asserted-by":"crossref","unstructured":"Ni B. Moulin P. Yan S.: \u2018Order\u2010Preserving sparse coding for sequence classification\u2019.Proc. ECCV 2012 pp.173\u2013187","DOI":"10.1007\/978-3-642-33709-3_13"},{"key":"e_1_2_7_54_2","doi-asserted-by":"publisher","DOI":"10.1016\/j.jvcir.2013.03.001"},{"key":"e_1_2_7_55_2","doi-asserted-by":"crossref","unstructured":"Molchanov P. Yang X. Gupta S. et al: \u2018Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural networks\u2019.Proc. CVPR 2016 pp.4207\u20134215","DOI":"10.1109\/CVPR.2016.456"},{"key":"e_1_2_7_56_2","doi-asserted-by":"crossref","unstructured":"Evangelidis G.D. Singh G. Horaud R.: \u2018Continuous gesture recognition from articulated poses\u2019.Proc. ECCV Workshops 2014 pp.595\u2013607","DOI":"10.1007\/978-3-319-16178-5_42"},{"key":"e_1_2_7_57_2","doi-asserted-by":"crossref","unstructured":"Seddik B. Ma\u00e2matou H. Gazzah S. et al: \u2018Unsupervised facial expressions recognition and avatar reconstruction from kinect\u2019.Proc. SSD 2013 pp.1\u20136","DOI":"10.1109\/SSD.2013.6564032"}],"container-title":["IET Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/onlinelibrary.wiley.com\/doi\/pdf\/10.1049\/iet-cvi.2016.0326","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/onlinelibrary.wiley.com\/doi\/full-xml\/10.1049\/iet-cvi.2016.0326","content-type":"application\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/ietresearch.onlinelibrary.wiley.com\/doi\/pdf\/10.1049\/iet-cvi.2016.0326","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,27]],"date-time":"2025-10-27T11:16:26Z","timestamp":1761563786000},"score":1,"resource":{"primary":{"URL":"https:\/\/ietresearch.onlinelibrary.wiley.com\/doi\/10.1049\/iet-cvi.2016.0326"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,8,18]]},"references-count":56,"journal-issue":{"issue":"7","published-print":{"date-parts":[[2017,10]]}},"alternative-id":["10.1049\/iet-cvi.2016.0326"],"URL":"https:\/\/doi.org\/10.1049\/iet-cvi.2016.0326","archive":["Portico"],"relation":{},"ISSN":["1751-9632","1751-9640"],"issn-type":[{"value":"1751-9632","type":"print"},{"value":"1751-9640","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017,8,18]]}}}