{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,5]],"date-time":"2025-11-05T11:10:29Z","timestamp":1762341029065,"version":"3.37.3"},"reference-count":42,"publisher":"Springer Science and Business Media LLC","issue":"13","license":[{"start":{"date-parts":[[2017,9,15]],"date-time":"2017-09-15T00:00:00Z","timestamp":1505433600000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["BC0300355"],"award-info":[{"award-number":["BC0300355"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Key Basic Research Program of Shanghai","award":["15JC1400103"],"award-info":[{"award-number":["15JC1400103"]}]},{"DOI":"10.13039\/501100012166","name":"National Basic Research Program of China","doi-asserted-by":"crossref","award":["2015CB856004"],"award-info":[{"award-number":["2015CB856004"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2018,7]]},"DOI":"10.1007\/s11042-017-5179-7","type":"journal-article","created":{"date-parts":[[2017,9,15]],"date-time":"2017-09-15T13:01:13Z","timestamp":1505480473000},"page":"16053-16068","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":14,"title":["Extracting hierarchical spatial and temporal features for human action recognition"],"prefix":"10.1007","volume":"77","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-2124-8318","authenticated-orcid":false,"given":"Keting","family":"Zhang","sequence":"first","affiliation":[]},{"given":"Liqing","family":"Zhang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2017,9,15]]},"reference":[{"issue":"3","key":"5179_CR1","doi-asserted-by":"crossref","first-page":"257","DOI":"10.1109\/34.910878","volume":"23","author":"AF Bobick","year":"2001","unstructured":"Bobick AF, Davis JW (2001) The recognition of human movement using temporal templates. IEEE Trans Pattern Anal Mach Intell 23(3):257\u2013267","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"3","key":"5179_CR2","doi-asserted-by":"crossref","first-page":"27","DOI":"10.1145\/1961189.1961199","volume":"2","author":"CC Chang","year":"2011","unstructured":"Chang CC, Lin CJ (2011) Libsvm: a library for support vector machines. ACM Trans Intell Syst Technol 2(3):27","journal-title":"ACM Trans Intell Syst Technol"},{"key":"5179_CR3","doi-asserted-by":"crossref","unstructured":"Chen J, Song X, Nie L, Wang X, Zhang H, Chua TS (2016) Micro tells macro: predicting the popularity of micro-videos via a transductive model. In: Proceedings of the 2016 ACM on multimedia conference, ACM, pp 898\u2013907","DOI":"10.1145\/2964284.2964314"},{"key":"5179_CR4","volume-title":"Introduction to algorithms, vol 6","author":"TH Cormen","year":"2001","unstructured":"Cormen TH, Leiserson CE, Rivest RL, Stein C (2001) Introduction to algorithms, vol 6. MIT Press, Cambridge"},{"key":"5179_CR5","doi-asserted-by":"crossref","unstructured":"Fu Y, Zhang T, Wang W (2017) Sparse coding-based space-time video representation for action recognition. Multimed Tool Appl 76(10):12645\u201312658","DOI":"10.1007\/s11042-016-3630-9"},{"issue":"1","key":"5179_CR6","doi-asserted-by":"crossref","first-page":"20","DOI":"10.1016\/0166-2236(92)90344-8","volume":"15","author":"MA Goodale","year":"1992","unstructured":"Goodale MA, Milner AD (1992) Separate visual pathways for perception and action. Trends Neurosci 15(1):20\u201325","journal-title":"Trends Neurosci"},{"issue":"3","key":"5179_CR7","doi-asserted-by":"crossref","first-page":"574","DOI":"10.1113\/jphysiol.1959.sp006308","volume":"148","author":"DH Hubel","year":"1959","unstructured":"Hubel DH, Wiesel TN (1959) Receptive fields of single neurones in the cat\u2019s striate cortex. J Physiol 148(3):574\u2013591","journal-title":"J Physiol"},{"issue":"7","key":"5179_CR8","doi-asserted-by":"crossref","first-page":"1705","DOI":"10.1162\/089976600300015312","volume":"12","author":"A Hyv\u00e4rinen","year":"2000","unstructured":"Hyv\u00e4rinen A, Hoyer P (2000) Emergence of phase-and shift-invariant features by decomposition of natural images into independent feature subspaces. Neural Comput 12(7):1705\u20131720","journal-title":"Neural Comput"},{"key":"5179_CR9","doi-asserted-by":"crossref","DOI":"10.1007\/978-1-84882-491-1","volume-title":"Natural image statistics: a probabilistic approach to early computational vision, vol 39","author":"A Hyv\u00e4rinen","year":"2009","unstructured":"Hyv\u00e4rinen A, Hurri J, Hoyer PO (2009) Natural image statistics: a probabilistic approach to early computational vision, vol 39. Springer Science & Business Media, Berlin"},{"key":"5179_CR10","doi-asserted-by":"crossref","unstructured":"Jhuang H, Serre T, Wolf L, Poggio T (2007) A biologically inspired system for action recognition. In: IEEE international conference on computer vision. IEEE, pp 1\u20138","DOI":"10.1109\/ICCV.2007.4408988"},{"issue":"1","key":"5179_CR11","doi-asserted-by":"crossref","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","volume":"35","author":"S Ji","year":"2013","unstructured":"Ji S, Xu W, Yang M, Yu K (2013) 3d convolutional neural networks for human action recognition. IEEE Trans Pattern Anal Mach Intell 35(1):221\u2013231","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"5179_CR12","doi-asserted-by":"crossref","unstructured":"Klaser A, Marsza\u0142ek M, Schmid C (2008) A spatio-temporal descriptor based on 3d-gradients. In: British machine vision conference, 2008. British Machine Vision Association, pp 275\u20131","DOI":"10.5244\/C.22.99"},{"key":"5179_CR13","doi-asserted-by":"crossref","unstructured":"Laptev I, Lindeberg T (2003) Space-time interest points. In: IEEE International conference on computer vision, 2003. IEEE, pp 432\u2013439","DOI":"10.1109\/ICCV.2003.1238378"},{"key":"5179_CR14","doi-asserted-by":"crossref","unstructured":"Laptev I, Marszalek M, Schmid C, Rozenfeld B (2008) Learning realistic human actions from movies. In: IEEE conference on computer vision and pattern recognition, 2008. IEEE, pp 1\u20138","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"5179_CR15","unstructured":"Le QV, Karpenko A, Ngiam J, Ng AY (2011) Ica with reconstruction cost for efficient overcomplete feature learning. In: Advances in neural information processing systems, pp 1017\u20131025"},{"key":"5179_CR16","doi-asserted-by":"crossref","unstructured":"Le QV, Zou WY, Yeung SY, Ng AY (2011) Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In: IEEE conference on computer vision and pattern recognition, 2011. IEEE, pp 3361\u20133368","DOI":"10.1109\/CVPR.2011.5995496"},{"key":"5179_CR17","doi-asserted-by":"crossref","unstructured":"Li L, Dai S (2017) Action recognition with spatio-temporal augmented descriptor and fusion method. Multimed Tool Appl 76(12):13953\u201313969","DOI":"10.1007\/s11042-016-3789-0"},{"issue":"1","key":"5179_CR18","doi-asserted-by":"crossref","first-page":"102","DOI":"10.1109\/TPAMI.2016.2537337","volume":"39","author":"AA Liu","year":"2017","unstructured":"Liu AA, Su YT, Nie WZ, Kankanhalli M (2017) Hierarchical clustering multi-task learning for joint human action grouping and recognition. IEEE Trans Pattern Anal Mach Intell 39(1):102\u2013114","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"5179_CR19","unstructured":"Liu A-A, Xu N, Nie W-Z, Su Y-T, Wong Y, Kankanhalli M (2017) Benchmarking a multimodal and multiview and interactive dataset for human action recognition. IEEE Trans Cybern 47(7):1781\u20131794"},{"key":"5179_CR20","doi-asserted-by":"crossref","unstructured":"Liu C, Xu W, Wu Q, Yang G (2016) Learning motion and content-dependent features with convolutions for action recognition. Multimed Tool Appl 75(21):13023\u201313039","DOI":"10.1007\/s11042-015-2550-4"},{"key":"5179_CR21","doi-asserted-by":"crossref","unstructured":"Marszalek M, Laptev I, Schmid C (2009) Actions in context. In: IEEE conference on computer vision and pattern recognition, 2009. IEEE, pp 2929\u20132936","DOI":"10.1109\/CVPR.2009.5206557"},{"key":"5179_CR22","unstructured":"Ngiam J, Coates A, Lahiri A, Prochnow B, Le QV, Ng AY (2011) On optimization methods for deep learning. In: Proceedings of the 28th international conference on machine learning, pp 265\u2013272"},{"issue":"23","key":"5179_CR23","doi-asserted-by":"crossref","first-page":"3311","DOI":"10.1016\/S0042-6989(97)00169-7","volume":"37","author":"BA Olshausen","year":"1997","unstructured":"Olshausen BA, Field DJ (1997) Sparse coding with an overcomplete basis set: a strategy employed by v1? Vis Res 37(23):3311\u20133325","journal-title":"Vis Res"},{"key":"5179_CR24","doi-asserted-by":"crossref","unstructured":"Rodriguez MD, Ahmed J, Shah M (2008) Action Mach: a spatio-temporal maximum average correlation height filter for action recognition. In: IEEE conference on computer vision and pattern recognition. IEEE","DOI":"10.1109\/CVPR.2008.4587727"},{"key":"5179_CR25","doi-asserted-by":"crossref","unstructured":"Schuldt C, Laptev I, Caputo B (2004) Recognizing human actions: a local svm approach. In: International conference on pattern recognition, 2004, vol 3. IEEE, pp 32\u201336","DOI":"10.1109\/ICPR.2004.1334462"},{"issue":"11","key":"5179_CR26","doi-asserted-by":"crossref","first-page":"1587","DOI":"10.1109\/TCSVT.2008.2005607","volume":"18","author":"J Shen","year":"2008","unstructured":"Shen J, Tao D, Li X (2008) Modality mixture projections for semantic video event detection. IEEE Trans Circuits Syst Video Technol 18(11):1587\u20131596","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"5179_CR27","doi-asserted-by":"crossref","unstructured":"Shen J, Pang H, Tao D, Li X (2010) Dual phase learning for large scale video gait recognition. In: MMM. Springer, pp 500\u2013510","DOI":"10.1007\/978-3-642-11301-7_50"},{"key":"5179_CR28","unstructured":"Simonyan K, Zisserman A (2014) Two-stream convolutional networks for action recognition in videos. In: Advances in neural information processing systems, pp 568\u2013576"},{"key":"5179_CR29","doi-asserted-by":"crossref","unstructured":"Taylor GW, Fergus R, LeCun Y, Bregler C (2010) Convolutional learning of spatio-temporal features. In: European conference on computer vision. Springer, pp 140\u2013153","DOI":"10.1007\/978-3-642-15567-3_11"},{"key":"5179_CR30","unstructured":"Tom M, Babu RV (2013) Rapid human action recognition in h. 264\/avc compressed domain for video surveillance. In: Visual communications and image processing. IEEE, pp 1\u20136"},{"key":"5179_CR31","doi-asserted-by":"crossref","unstructured":"Wang H, Ullah MM, Klaser A, Laptev I, Schmid C (2009) Evaluation of local spatio-temporal features for action recognition. In: British Machine Vision Conference, 2009. BMVA Press, pp 124\u20131","DOI":"10.5244\/C.23.124"},{"key":"5179_CR32","unstructured":"Xiao Y, Xia L (2015) Human action recognition using modified slow feature analysis and multiple kernel learning. Multimed Tool Appl:1\u201316"},{"key":"5179_CR33","doi-asserted-by":"crossref","unstructured":"Xue W, Zhao H, Zhang L (2016) Encoding multi-resolution two-stream cnns for action recognition. In: International conference on neural information processing. Springer, pp 564\u2013571","DOI":"10.1007\/978-3-319-46675-0_62"},{"issue":"5","key":"5179_CR34","doi-asserted-by":"crossref","first-page":"367","DOI":"10.1049\/el.2013.3235","volume":"50","author":"C Yan","year":"2014","unstructured":"Yan C, Zhang Y, Dai F, Wang X, Li L, Dai Q (2014) Parallel deblocking filter for hevc on many-core processor. Electron Lett 50(5):367\u2013368","journal-title":"Electron Lett"},{"issue":"11","key":"5179_CR35","doi-asserted-by":"crossref","first-page":"805","DOI":"10.1049\/el.2014.0611","volume":"50","author":"C Yan","year":"2014","unstructured":"Yan C, Zhang Y, Dai F, Zhang J, Li L, Dai Q (2014) Efficient parallel hevc intra-prediction on many-core processor. Electron Lett 50(11):805\u2013806","journal-title":"Electron Lett"},{"issue":"5","key":"5179_CR36","doi-asserted-by":"crossref","first-page":"573","DOI":"10.1109\/LSP.2014.2310494","volume":"21","author":"C Yan","year":"2014","unstructured":"Yan C, Zhang Y, Xu J, Dai F, Li L, Dai Q, Wu F (2014) A highly parallel framework for hevc coding unit partitioning tree decision on many-core processors. IEEE Signal Process Lett 21(5):573\u2013576","journal-title":"IEEE Signal Process Lett"},{"issue":"12","key":"5179_CR37","doi-asserted-by":"crossref","first-page":"2077","DOI":"10.1109\/TCSVT.2014.2335852","volume":"24","author":"C Yan","year":"2014","unstructured":"Yan C, Zhang Y, Xu J, Dai F, Zhang J, Dai Q, Wu F (2014) Efficient parallel framework for hevc motion estimation on many-core processors. IEEE Trans Circuits Syst Video Technol 24(12):2077\u2013 2089","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"5179_CR38","doi-asserted-by":"crossref","unstructured":"Yu S, Cheng Y, Su S, Cai G, Li S (2017) Stratified pooling based deep convolutional neural networks for human action recognition. Multimed Tool Appl 76(11):13367\u201313382","DOI":"10.1007\/s11042-016-3768-5"},{"key":"5179_CR39","doi-asserted-by":"crossref","unstructured":"Zhang J, Nie L, Wang X, He X, Huang X, Chua TS (2016) Shorter-is-better: venue category estimation from micro-video. In: Proceedings of the 2016 ACM on multimedia conference. ACM, pp 1415\u20131424","DOI":"10.1145\/2964284.2964307"},{"issue":"3","key":"5179_CR40","doi-asserted-by":"crossref","first-page":"436","DOI":"10.1109\/TPAMI.2011.157","volume":"34","author":"Z Zhang","year":"2012","unstructured":"Zhang Z, Tao D (2012) Slow feature analysis for human action recognition. IEEE Trans Pattern Anal Mach Intell 34(3):436\u2013450","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"2","key":"5179_CR41","doi-asserted-by":"crossref","first-page":"472","DOI":"10.1109\/TKDE.2016.2562624","volume":"29","author":"L Zhu","year":"2017","unstructured":"Zhu L, Shen J, Xie L, Cheng Z (2017) Unsupervised visual hashing with semantic assistant for content-based image retrieval. IEEE Trans Knowl Data Eng 29(2):472\u2013486","journal-title":"IEEE Trans Knowl Data Eng"},{"key":"5179_CR42","unstructured":"Zou W, Zhu S, Yu K, Ng AY (2012) Deep learning of invariant features via simulated fixations in video. In: Advances in neural information processing systems, pp 3212\u20133220"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-017-5179-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-017-5179-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-017-5179-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,5,18]],"date-time":"2020-05-18T07:36:54Z","timestamp":1589787414000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-017-5179-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,9,15]]},"references-count":42,"journal-issue":{"issue":"13","published-print":{"date-parts":[[2018,7]]}},"alternative-id":["5179"],"URL":"https:\/\/doi.org\/10.1007\/s11042-017-5179-7","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"type":"print","value":"1380-7501"},{"type":"electronic","value":"1573-7721"}],"subject":[],"published":{"date-parts":[[2017,9,15]]}}}