{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,21]],"date-time":"2026-07-21T11:30:33Z","timestamp":1784633433319,"version":"3.55.0"},"reference-count":77,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2017,5]]},"DOI":"10.1109\/ijcnn.2017.7966210","type":"proceedings-article","created":{"date-parts":[[2017,7,10]],"date-time":"2017-07-10T21:41:30Z","timestamp":1499722890000},"page":"2865-2872","source":"Crossref","is-referenced-by-count":136,"title":["Recent advances in video-based human action recognition using deep learning: A review"],"prefix":"10.1109","author":[{"given":"Di","family":"Wu","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Nabin","family":"Sharma","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Michael","family":"Blumenstein","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1023\/A:1013258808932"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1145\/2538028"},{"key":"ref71","article-title":"Documentation mocap database hdm05","author":"m\u00fcller","year":"2007","journal-title":"Tech Rep CG-2007-2"},{"key":"ref70","first-page":"1110","article-title":"Hierarchical recurrent neural network for skeleton based action recognition","author":"du","year":"2015","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2014.2347057"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2010.232"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2016.2519448"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVMP.2009.19"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2013.77"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2006.07.013"},{"key":"ref33","doi-asserted-by":"crossref","first-page":"13","DOI":"10.1109\/TSMCC.2009.2027608","article-title":"Advances in view-invariant human motion analysis: a review","volume":"40","author":"ji","year":"2010","journal-title":"IEEE Transactions on Systems Man and Cybernetics Part C (Applications and Reviews)"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2009.11.014"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/BMEI.2012.6512972"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/THMS.2014.2325871"},{"key":"ref37","author":"rodriguez","year":"2010","journal-title":"Spatio-temporal maximum average correlation height templates in action recognition and video summarization"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.2004.1334462"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2013.01.013"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2010.10.002"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1007\/s00138-012-0450-4"},{"key":"ref62","first-page":"3218","article-title":"P-cnn: Pose-based cnn features for action recognition","author":"ch\u00e9ron","year":"2015","journal-title":"Proceedings of the IEEE International Conference on Computer Vision"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299059"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.396"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2012.59"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2012.6247801"},{"key":"ref27","first-page":"1","article-title":"Learning human actions via information maximization","author":"liu","year":"2008","journal-title":"Computer Vision and Pattern Recognition 2008 CVPR 2008 IEEE Conference on"},{"key":"ref65","article-title":"Delving deeper into convolutional networks for learning video representations","author":"ballas","year":"2016","journal-title":"International Conference on Learning Representations"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/ICAPR.2015.7050706"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/NAMW.1997.609859"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2013.6474999"},{"key":"ref68","article-title":"Action recognition from depth maps using deep convolutional neural networks","author":"wang","year":"2015","journal-title":"IEEE Transactions on Human-Machine Systems"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2012.6239233"},{"key":"ref2","first-page":"1","article-title":"Learning realistic human actions from movies","author":"laptev","year":"2008","journal-title":"Computer Vision and Pattern Recognition 2008 CVPR 2008 IEEE Conference on"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2005.28"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/WMVC.2007.12"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2013.2252622"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2011.147"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/VSPETS.2005.1570899"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICMEW.2013.6618448"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-14715-9_10"},{"key":"ref25","article-title":"Mosift: Recognizing human actions in surveillance videos","author":"chen","year":"2009","journal-title":"CMU-CS-09-161"},{"key":"ref50","first-page":"151","article-title":"High-Level Feature Detection from Video in TRECVid: a 5-Year Retrospective of Achievements","author":"smeaton","year":"2009","journal-title":"Multimedia Content Analysis Theory and Applications"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.522"},{"key":"ref59","first-page":"1","article-title":"Learning deep trajectory descriptor for action recognition in videos using deep neural networks","author":"shi","year":"2015","journal-title":"Multimedia and Expo (ICME) 2015 IEEE International Conference on IEEE"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/ICALIP.2014.7009771"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN.2014.6889832"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.460"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN.2013.6706797"},{"key":"ref54","first-page":"568","article-title":"Two-stream convolutional networks for action recognition in videos","author":"simonyan","year":"2014","journal-title":"Advances in neural information processing systems"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"ref52","author":"soomro","year":"2012","journal-title":"Ucf101 A Dataset of 101 Human Actions Classes from Videos in the Wild"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN.2012.6252675"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-005-1838-7"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/AVSS.2010.63"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/34.868684"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2008.4711864"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TSMCB.2012.2231959"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/34.910878"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TSMCB.2008.2011815"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2011.70"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2012.253"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.1992.223161"},{"key":"ref4","article-title":"Detecting events and key actors in multi-person videos","author":"vignesh ramanathan","year":"2016","journal-title":"CVPR"},{"key":"ref3","article-title":"A hierarchical deep temporal model for group activity recognition","author":"mostafa","year":"2016","journal-title":"CVPR"},{"key":"ref6","article-title":"Perceptual losses for real-time style transfer and super-resolution","author":"johnson","year":"2016","journal-title":"European Conference on Computer Vision (ECCV)"},{"key":"ref5","article-title":"Deep multi-scale video prediction beyond mean square error","author":"mathieu","year":"2016","journal-title":"International Conference on Learning Representations"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2012.141"},{"key":"ref7","article-title":"Seed, expand and constrain: Three principles for weakly-supervised image segmentation","author":"kolesnikov","year":"2016","journal-title":"European Conference on Computer Vision (ECCV)"},{"key":"ref49","doi-asserted-by":"crossref","first-page":"29","DOI":"10.1007\/978-3-642-25446-8_4","article-title":"Sequential deep learning for human action recognition","author":"baccouche","year":"2011","journal-title":"First International Workshop on Human Behavior Understanding"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2010.144"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ROMAN.2014.6926340"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.339"},{"key":"ref48","doi-asserted-by":"crossref","first-page":"3","DOI":"10.1109\/ICMI.2002.1166960","article-title":"Layered representations for human activity recognition","author":"oliver","year":"2002","journal-title":"Multimodal Interfaces 2002 Proceedings Fourth IEEE International Conference on"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2013.98"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2007.383505"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-0-85729-127-1_23"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2012.6247813"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2010.5543273"}],"event":{"name":"2017 International Joint Conference on Neural Networks (IJCNN)","location":"Anchorage, AK, USA","start":{"date-parts":[[2017,5,14]]},"end":{"date-parts":[[2017,5,19]]}},"container-title":["2017 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7958416\/7965814\/07966210.pdf?arnumber=7966210","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,9,29]],"date-time":"2019-09-29T10:14:25Z","timestamp":1569752065000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7966210\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,5]]},"references-count":77,"URL":"https:\/\/doi.org\/10.1109\/ijcnn.2017.7966210","relation":{},"subject":[],"published":{"date-parts":[[2017,5]]}}}