{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,7]],"date-time":"2026-05-07T13:54:16Z","timestamp":1778162056221,"version":"3.51.4"},"reference-count":52,"publisher":"Springer Science and Business Media LLC","issue":"11","license":[{"start":{"date-parts":[[2016,7,15]],"date-time":"2016-07-15T00:00:00Z","timestamp":1468540800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"name":"the Nature Science Foundation of China","award":["61202143"],"award-info":[{"award-number":["61202143"]}]},{"name":"the Nature Science Foundation of China","award":["61572409"],"award-info":[{"award-number":["61572409"]}]},{"name":"the Natural Science Foundation of Fujian Province","award":["15C7026"],"award-info":[{"award-number":["15C7026"]}]},{"name":"the Nature Science Foundation of China","award":["61571188"],"award-info":[{"award-number":["61571188"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2017,6]]},"DOI":"10.1007\/s11042-016-3768-5","type":"journal-article","created":{"date-parts":[[2016,7,15]],"date-time":"2016-07-15T07:50:57Z","timestamp":1468569057000},"page":"13367-13382","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":37,"title":["Stratified pooling based deep convolutional neural networks for human action recognition"],"prefix":"10.1007","volume":"76","author":[{"given":"Sheng","family":"Yu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yun","family":"Cheng","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Songzhi","family":"Su","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Guorong","family":"Cai","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shaozi","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2016,7,15]]},"reference":[{"key":"3768_CR1","unstructured":"Aarts E, Korst J (1988) Simulated annealing and boltzmann machines"},{"key":"3768_CR2","doi-asserted-by":"crossref","unstructured":"Bay H, Tuytelaars T, Van Gool L (2006) Surf: speeded up robust features. In: Computer vision\u2013ECCV 2006. Springer, pp 404\u2013417","DOI":"10.1007\/11744023_32"},{"key":"3768_CR3","doi-asserted-by":"crossref","unstructured":"Chatfield K, Simonyan K, Vedaldi A, Zisserman A (2014) Return of the devil in the details: Delving deep into convolutional nets. arXiv: 1405.3531","DOI":"10.5244\/C.28.6"},{"key":"3768_CR4","doi-asserted-by":"crossref","unstructured":"Chen QQ, Zhang YJ (2015) Cluster trees of improved trajectories for action recognition. Neurocomputing","DOI":"10.1016\/j.neucom.2015.03.124"},{"key":"3768_CR5","unstructured":"Coates A, Ng AY (2011) The importance of encoding versus training with sparse coding and vector quantization. In: Proceedings of the 28th international conference on machine learning (ICML-11), pp 921\u2013928"},{"key":"3768_CR6","doi-asserted-by":"crossref","unstructured":"Donahue J, Anne Hendricks L, Guadarrama S, Rohrbach M, Venugopalan S, Saenko K, Darrell T (2015) Long-term recurrent convolutional networks for visual recognition and description. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2625\u2013 2634","DOI":"10.1109\/CVPR.2015.7298878"},{"key":"3768_CR7","first-page":"1871","volume":"9","author":"RE Fan","year":"2008","unstructured":"Fan RE, Chang KW, Hsieh CJ, Wang XR, Lin CJ (2008) Liblinear: a library for large linear classification. J Mach Learn Res 9:1871\u20131874","journal-title":"J Mach Learn Res"},{"key":"3768_CR8","doi-asserted-by":"crossref","unstructured":"Fei-Fei L, Perona P (2005) A bayesian hierarchical model for learning natural scene categories. In: IEEE computer society conference on computer vision and pattern recognition, 2005. CVPR 2005, vol 2. IEEE, pp 524\u2013531","DOI":"10.1109\/CVPR.2005.16"},{"key":"3768_CR9","doi-asserted-by":"crossref","unstructured":"Gehring J, Miao Y, Metze F, Waibel A (2013) Extracting deep bottleneck features using stacked auto-encoders. In: IEEE international conference on acoustics, speech and signal processing (ICASSP), 2013. IEEE, pp 3377\u20133381","DOI":"10.1109\/ICASSP.2013.6638284"},{"key":"3768_CR10","doi-asserted-by":"crossref","unstructured":"Girshick R, Donahue J, Darrell T, Malik J (2014) Rich feature hierarchies for accurate object detection and semantic segmentation. In: IEEE conference on computer vision and pattern recognition (CVPR), 2014. IEEE, pp 580\u2013587","DOI":"10.1109\/CVPR.2014.81"},{"key":"3768_CR11","doi-asserted-by":"crossref","unstructured":"Gkioxari G, Girshick R, Malik J (2015) Contextual action recognition with r* cnn. In: Proceedings of the IEEE international conference on computer vision, pp 1080\u20131088","DOI":"10.1109\/ICCV.2015.129"},{"key":"3768_CR12","volume-title":"Class-specific reference discriminant analysis with application in human behavior analysis","author":"A Iosifidis","year":"2014","unstructured":"Iosifidis A, Tefas A, Pitas I (2014) Class-specific reference discriminant analysis with application in human behavior analysis"},{"key":"3768_CR13","doi-asserted-by":"crossref","unstructured":"Jain M, J\u00e9gou H., Bouthemy P (2013) Better exploiting motion for better action recognition. In: IEEE conference on computer vision and pattern recognition (CVPR), 2013. IEEE, pp 2555\u20132562","DOI":"10.1109\/CVPR.2013.330"},{"issue":"9","key":"3768_CR14","doi-asserted-by":"crossref","first-page":"1704","DOI":"10.1109\/TPAMI.2011.235","volume":"34","author":"H J\u00e9gou","year":"2012","unstructured":"J\u00e9gou H., Perronnin F, Douze M, Sanchez J, Perez P, Schmid C (2012) Aggregating local image descriptors into compact codes. IEEE Trans Pattern Anal Mach Intell 34(9):1704\u20131716","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"3768_CR15","unstructured":"Jhuang H, Garrote H, Poggio E, Serre T, Hmdb T (2011) A large video database for human motion recognition. In: Proceedings of IEEE international conference on computer vision"},{"issue":"1","key":"3768_CR16","doi-asserted-by":"crossref","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","volume":"35","author":"S Ji","year":"2013","unstructured":"Ji S, Xu W, Yang M, Yu K (2013) 3d convolutional neural networks for human action recognition. IEEE Trans Pattern Anal Mach Intell 35(1):221\u2013231","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"3768_CR17","doi-asserted-by":"crossref","unstructured":"Jia Y, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, Guadarrama S, Darrell T (2014) Caffe: convolutional architecture for fast feature embedding. In: Proceedings of the ACM international conference on multimedia. ACM, pp 675\u2013678","DOI":"10.1145\/2647868.2654889"},{"key":"3768_CR18","doi-asserted-by":"crossref","first-page":"9","DOI":"10.1016\/j.sigpro.2014.01.004","volume":"100","author":"M Jian","year":"2014","unstructured":"Jian M, Lam KM (2014) Face-image retrieval based on singular values and potential-field representation. Signal Process 100:9\u201315","journal-title":"Signal Process"},{"issue":"11","key":"3768_CR19","doi-asserted-by":"crossref","first-page":"1761","DOI":"10.1109\/TCSVT.2015.2400772","volume":"25","author":"M Jian","year":"2015","unstructured":"Jian M, Lam KM (2015) Simultaneous hallucination and recognition of low-resolution faces based on singular value decomposition. IEEE Trans Circuits Syst Video Technol 25(11):1761\u20131772","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"3768_CR20","doi-asserted-by":"crossref","unstructured":"Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Fei-Fei L (2014) Large-scale video classification with convolutional neural networks. In: IEEE conference on computer vision and pattern recognition (CVPR), 2014. IEEE, pp 1725\u20131732","DOI":"10.1109\/CVPR.2014.223"},{"key":"3768_CR21","doi-asserted-by":"crossref","unstructured":"Klaser A, Marsza\u0142ek M., Schmid C (2008) A spatio-temporal descriptor based on 3d-gradients. In: BMVC 2008-19Th british machine vision conference. British Machine Vision Association, pp 275\u2013271","DOI":"10.5244\/C.22.99"},{"key":"3768_CR22","unstructured":"Krizhevsky A, Sutskever I, Hinton GE (2012) Imagenet classification with deep convolutional neural networks. In: Advances in neural information processing systems, pp 1097\u20131105"},{"issue":"2-3","key":"3768_CR23","doi-asserted-by":"crossref","first-page":"107","DOI":"10.1007\/s11263-005-1838-7","volume":"64","author":"I Laptev","year":"2005","unstructured":"Laptev I (2005) On space-time interest points. Int J Comput Vis 64(2-3):107\u2013123","journal-title":"Int J Comput Vis"},{"key":"3768_CR24","doi-asserted-by":"crossref","unstructured":"Laptev I, Marsza\u0142ek M., Schmid C, Rozenfeld B (2008) Learning realistic human actions from movies. In: IEEE conference on computer vision and pattern recognition, 2008. CVPR 2008. IEEE, pp 1\u20138","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"3768_CR25","doi-asserted-by":"crossref","unstructured":"Le QV, Zou WY, Yeung SY, Ng AY (2011) Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In: IEEE conference on computer vision and pattern recognition (CVPR), 2011. IEEE, pp 3361\u20133368","DOI":"10.1109\/CVPR.2011.5995496"},{"key":"3768_CR26","doi-asserted-by":"crossref","unstructured":"Le Roux N, Bengio Y (2008) Representational power of restricted boltzmann machines and deep belief networks. Neural Comput 20(6):1631\u20131649","DOI":"10.1162\/neco.2008.04-07-510"},{"key":"3768_CR27","doi-asserted-by":"crossref","unstructured":"Lee H, Grosse R, Ranganath R, Ng AY (2009) Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In: Proceedings of the 26th annual international conference on machine learning. ACM, pp 609\u2013616","DOI":"10.1145\/1553374.1553453"},{"key":"3768_CR28","doi-asserted-by":"crossref","first-page":"593","DOI":"10.1016\/j.neucom.2014.06.084","volume":"151","author":"B Leng","year":"2015","unstructured":"Leng B, Zhang X, Yao M, Xiong Z (2015) A 3d model recognition mechanism based on deep boltzmann machines. Neurocomputing 151:593\u2013602","journal-title":"Neurocomputing"},{"key":"3768_CR29","unstructured":"Liu L, Shen C, Hengel AVD (2014) The treasure beneath convolutional layers: Cross-convolutional-layer pooling for image classification. arXiv: 1411.7466"},{"key":"3768_CR30","doi-asserted-by":"crossref","unstructured":"Liu R, Chen Y, Zhu X, Hou K (2015) Image classification using label constrained sparse coding. Multimedia Tools and Applications:1\u201315","DOI":"10.1007\/s11042-015-2626-1"},{"issue":"2","key":"3768_CR31","doi-asserted-by":"crossref","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe DG (2004) Distinctive image features from scale-invariant keypoints. Int J Comput Vis 60(2):91\u2013110","journal-title":"Int J Comput Vis"},{"key":"3768_CR32","doi-asserted-by":"crossref","first-page":"139","DOI":"10.1016\/j.patrec.2014.03.024","volume":"50","author":"J Luo","year":"2014","unstructured":"Luo J, Wang W, Qi H (2014) Spatio-temporal feature extraction and representation for rgb-d human action recognition. Pattern Recogn Lett 50:139\u2013148","journal-title":"Pattern Recogn Lett"},{"key":"3768_CR33","unstructured":"Mnih V, Heess N, Graves A, et al. (2014) Recurrent models of visual attention. In: Advances in neural information processing systems, pp 2204\u20132212"},{"key":"3768_CR34","doi-asserted-by":"crossref","unstructured":"Peng X, Qiao Y, Peng Q, Qi X (2013) Exploring motion boundary based sampling and spatial-temporal context descriptors for action recognition. In: British machine vision conference (BMVC)","DOI":"10.5244\/C.27.59"},{"key":"3768_CR35","unstructured":"Peng X, Wang L, Wang X, Qiao Y (2014) Bag of visual words and fusion methods for action recognition: comprehensive study and good practice. arXiv: 1405.4506"},{"key":"3768_CR36","doi-asserted-by":"crossref","unstructured":"Peng X, Zou C, Qiao Y, Peng Q (2014) Action recognition with stacked fisher vectors. In: Computer vision\u2013ECCV 2014. Springer, pp 581\u2013595","DOI":"10.1007\/978-3-319-10602-1_38"},{"key":"3768_CR37","doi-asserted-by":"crossref","unstructured":"Perronnin F, Dance C (2007) Fisher kernels on visual vocabularies for image categorization. In: IEEE conference on computer vision and pattern recognition, 2007. CVPR\u201907. IEEE, pp 1\u20138","DOI":"10.1109\/CVPR.2007.383266"},{"key":"3768_CR38","doi-asserted-by":"crossref","unstructured":"Perronnin F, S\u00e1nchez J., Mensink T (2010) Improving the fisher kernel for large-scale image classification. In: Computer vision\u2013ECCV 2010. Springer, pp 143\u2013156","DOI":"10.1007\/978-3-642-15561-1_11"},{"key":"3768_CR39","unstructured":"Sermanet P, Eigen D, Zhang X, Mathieu M, Fergus R, LeCun Y (2013) Overfeat: integrated recognition, localization and detection using convolutional networks. arXiv: 1312.6229"},{"key":"3768_CR40","unstructured":"Sharma S, Kiros R, Salakhutdinov R (2015) Action recognition using visual attention. arXiv: 1511.04119"},{"key":"3768_CR41","unstructured":"Simonyan K, Zisserman A (2014) Two-stream convolutional networks for action recognition in videos. In: Advances in neural information processing systems, pp 568\u2013576"},{"key":"3768_CR42","unstructured":"Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv: 1409.1556"},{"key":"3768_CR43","unstructured":"Soomro K, Zamir AR, Shah M (2012) Ucf101: A dataset of 101 human actions classes from videos in the wild. arXiv: 1212.0402"},{"issue":"1","key":"3768_CR44","doi-asserted-by":"crossref","first-page":"60","DOI":"10.1007\/s11263-012-0594-8","volume":"103","author":"H Wang","year":"2013","unstructured":"Wang H, Kl\u00e4ser A., Schmid C, Liu CL (2013) Dense trajectories and motion boundary descriptors for action recognition. Int J Comput Vis 103(1):60\u201379","journal-title":"Int J Comput Vis"},{"key":"3768_CR45","doi-asserted-by":"crossref","unstructured":"Wang H, Schmid C (2013) Action recognition with improved trajectories. In: IEEE international conference on computer vision (ICCV), 2013. IEEE, pp 3551\u20133558","DOI":"10.1109\/ICCV.2013.441"},{"key":"3768_CR46","doi-asserted-by":"crossref","unstructured":"Wang L, Qiao Y, Tang X (2015) Action recognition with trajectory-pooled deep-convolutional descriptors. arXiv: 1505.04868","DOI":"10.1109\/CVPR.2015.7299059"},{"key":"3768_CR47","unstructured":"Wang P, Cao Y, Shen C, Liu L, Shen HT (2015) Temporal pyramid pooling based convolutional neural networks for action recognition. arXiv: 1503.01224"},{"key":"3768_CR48","unstructured":"Xu H, Tian Q, Wang Z, Wu J (2015) A survey on aggregating methods for action recognition with dense trajectories. Multimedia Tools and Applications:1\u201317"},{"key":"3768_CR49","unstructured":"Xu K, Ba J, Kiros R, Courville A, Salakhutdinov R, Zemel R, Bengio Y (2015) Show, attend and tell: neural image caption generation with visual attention. arXiv: 1502.03044"},{"key":"3768_CR50","doi-asserted-by":"crossref","unstructured":"Yao L, Torabi A, Cho K, Ballas N, Pal C, Larochelle H, Courville A (2015) Describing videos by exploiting temporal structure. In: Proceedings of the IEEE international conference on computer vision, pp 4507\u20134515","DOI":"10.1109\/ICCV.2015.512"},{"key":"3768_CR51","doi-asserted-by":"crossref","unstructured":"Yue-Hei Ng J, Hausknecht M, Vijayanarasimhan S, Vinyals O, Monga R, Toderici G (2015) Beyond short snippets: deep networks for video classification. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4694\u20134702","DOI":"10.1109\/CVPR.2015.7299101"},{"key":"3768_CR52","doi-asserted-by":"crossref","unstructured":"Zhou Y, Ni B, Hong R, Wang M, Tian Q (2015) Interaction part mining: a mid-level approach for fine-grained action recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3323\u20133331","DOI":"10.1109\/CVPR.2015.7298953"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-016-3768-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-016-3768-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-016-3768-5","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-016-3768-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,9,11]],"date-time":"2019-09-11T01:54:22Z","timestamp":1568166862000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-016-3768-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,7,15]]},"references-count":52,"journal-issue":{"issue":"11","published-print":{"date-parts":[[2017,6]]}},"alternative-id":["3768"],"URL":"https:\/\/doi.org\/10.1007\/s11042-016-3768-5","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2016,7,15]]}}}