{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,13]],"date-time":"2025-10-13T19:56:51Z","timestamp":1760385411338},"reference-count":68,"publisher":"Springer Science and Business Media LLC","issue":"10","license":[{"start":{"date-parts":[[2015,3,15]],"date-time":"2015-03-15T00:00:00Z","timestamp":1426377600000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2016,5]]},"DOI":"10.1007\/s11042-015-2536-2","type":"journal-article","created":{"date-parts":[[2015,3,14]],"date-time":"2015-03-14T06:49:01Z","timestamp":1426315741000},"page":"5701-5717","update-policy":"http:\/\/dx.doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":13,"title":["A survey on aggregating methods for action recognition with dense trajectories"],"prefix":"10.1007","volume":"75","author":[{"given":"Haiyan","family":"Xu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qian","family":"Tian","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhen","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jianhui","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2015,3,15]]},"reference":[{"key":"2536_CR1","doi-asserted-by":"crossref","unstructured":"Arandjelovic R, Zisserman A (2013) All about VLAD. IEEE Conf Comput Vis Pattern Recogn","DOI":"10.1109\/CVPR.2013.207"},{"key":"2536_CR2","unstructured":"Atmosukarto I, Ghanem B, Ahuja N (2012) Trajectory-based fisher kernel representation for action recognition in videos. Int Conf Pattern Recogn 3333\u20133336"},{"key":"2536_CR3","doi-asserted-by":"crossref","unstructured":"Ballas N et al (2013) Space-time robust video representation for action recognition. ICCV","DOI":"10.1109\/ICCV.2013.336"},{"key":"2536_CR4","doi-asserted-by":"crossref","unstructured":"Bilinski P, Bremond F (2012) Contextual statistics of space-time ordered features for human action recognition. In Advanced Video and Signal-Based Surveillance (AVSS), 2012 I.E. Ninth International Conference on. 228\u2013233","DOI":"10.1109\/AVSS.2012.29"},{"key":"2536_CR5","doi-asserted-by":"crossref","unstructured":"Boureau YL et al (2010) Learning mid-level features for recognition. IEEE Conf Comput Vis Pattern Recogn 2559\u20132566","DOI":"10.1109\/CVPR.2010.5539963"},{"key":"2536_CR6","doi-asserted-by":"crossref","unstructured":"Bregonzio M et al (2010) Discriminative topics modelling for action feature selection and recognition. BMVC","DOI":"10.5244\/C.24.8"},{"key":"2536_CR7","doi-asserted-by":"crossref","unstructured":"Cai Z et al (2014) Multi-view super vector for action recognition. CVPR","DOI":"10.1109\/CVPR.2014.83"},{"key":"2536_CR8","doi-asserted-by":"crossref","unstructured":"Cho J et al (2013) Robust action recognition using local motion and group sparsity. Pattern Recogn","DOI":"10.1016\/j.patcog.2013.12.004"},{"key":"2536_CR9","doi-asserted-by":"crossref","unstructured":"Delhumeau J et al (2013) Revisiting the VLAD image representation. In Proceedings of the 21st ACM international conference on multimedia. ACM 653\u2013656","DOI":"10.1145\/2502081.2502171"},{"issue":"1","key":"2536_CR10","doi-asserted-by":"crossref","first-page":"52","DOI":"10.1016\/j.cviu.2006.10.012","volume":"108","author":"A Erol","year":"2007","unstructured":"Erol A et al (2007) Vision-based hand pose estimation: a review. Comput Vis Image Underst 108(1):52\u201373","journal-title":"Comput Vis Image Underst"},{"key":"2536_CR11","doi-asserted-by":"crossref","unstructured":"Fathi A, Mori G (2008) Action recognition by learning mid-level motion features. IEEE Conf Comput Vis Pattern Recogn 1\u20138","DOI":"10.1109\/CVPR.2008.4587735"},{"key":"2536_CR12","doi-asserted-by":"crossref","unstructured":"Fei-Fei L, Perona P (2005) A bayesian hierarchical model for learning natural scene categories. IEEE ComputSoc Conf ComputVis Pattern Recogn","DOI":"10.1109\/CVPR.2005.16"},{"key":"2536_CR13","doi-asserted-by":"crossref","unstructured":"Gilbert A, Illingworth J, Bowden R (2009) Fast realistic multi-action recognition using mined dense spatio-temporal features. IEEE Int Conf Comput Vis 925\u2013931","DOI":"10.1109\/ICCV.2009.5459335"},{"key":"2536_CR14","unstructured":"Han D, Bo L, Sminchisescu C (2009) Selection and context for action recognition. IEEE IntConf Comput Vis 1933\u20131940"},{"key":"2536_CR15","unstructured":"http:\/\/www.tuicool.com\/articles\/fyeUnm"},{"issue":"3","key":"2536_CR16","doi-asserted-by":"crossref","first-page":"334","DOI":"10.1109\/TSMCC.2004.829274","volume":"34","author":"W Hu","year":"2004","unstructured":"Hu W et al (2004) A survey on visual surveillance of object motion and behaviors. IEEE Trans Syst Man Cybern C Appl Rev 34(3):334\u2013352","journal-title":"IEEE Trans Syst Man Cybern C Appl Rev"},{"key":"2536_CR17","doi-asserted-by":"crossref","unstructured":"Jain M, J\u00e9gou H, Bouthemy P (2013) Better exploiting motion for better action recognition. Int Conf Comput Vis Pattern Recogn","DOI":"10.1109\/CVPR.2013.330"},{"issue":"9","key":"2536_CR18","doi-asserted-by":"crossref","first-page":"1704","DOI":"10.1109\/TPAMI.2011.235","volume":"34","author":"H J\u00e9gou","year":"2012","unstructured":"J\u00e9gou H et al (2012) Aggregating local image descriptors into compact codes. IEEE Trans Pattern Anal Mach Intell 34(9):1704\u20131716","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"2536_CR19","doi-asserted-by":"crossref","unstructured":"J\u00e9gou H et al (2010) Aggregating local descriptors into a compact image representation. IEEE Conf Comput Vis Pattern Recogn 3304\u20133311","DOI":"10.1109\/CVPR.2010.5540039"},{"key":"2536_CR20","doi-asserted-by":"crossref","unstructured":"Kim SJ et al (2014) View invariant action recognition using generalized 4D features. Pattern Recogn Lett","DOI":"10.1016\/j.patrec.2014.05.018"},{"key":"2536_CR21","doi-asserted-by":"crossref","unstructured":"Klaser A, Marszalek M (2008) A spatio-temporal descriptor based on 3D-gradients. BMVC","DOI":"10.5244\/C.22.99"},{"issue":"5","key":"2536_CR22","doi-asserted-by":"crossref","first-page":"479","DOI":"10.1016\/j.cviu.2012.10.010","volume":"117","author":"P Koniusz","year":"2013","unstructured":"Koniusz P, Yan F, Mikolajczyk K (2013) Comparison of mid-level feature coding approaches and pooling strategies in visual concept detection. Comput Vis Image Underst 117(5):479\u2013492","journal-title":"Comput Vis Image Underst"},{"key":"2536_CR23","doi-asserted-by":"crossref","unstructured":"Kuehne H et al (2011) HMDB: a large video database for human motion recognition. IEEE Int Conf Comput Vis 2556\u20132563","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"2536_CR24","unstructured":"Lan Z, Bao L, Yu S I, et al (2013) Multimedia classification and event detection using double fusion [J]. Multimedia Tool Appl 1\u201315"},{"issue":"2\u20133","key":"2536_CR25","doi-asserted-by":"crossref","first-page":"107","DOI":"10.1007\/s11263-005-1838-7","volume":"64","author":"I Laptev","year":"2005","unstructured":"Laptev I (2005) On space-time interest points. Int J Comput Vis 64(2\u20133):107\u2013123","journal-title":"Int J Comput Vis"},{"key":"2536_CR26","doi-asserted-by":"crossref","unstructured":"Laptev I et al (2008) Learning realistic human actions from movies. IEEE Conf Comput Vis Pattern Recogn 1\u20138","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"2536_CR27","doi-asserted-by":"crossref","unstructured":"Le QV et al (2011) Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. IEEE Conf Comput Vis Pattern Recogn","DOI":"10.1109\/CVPR.2011.5995496"},{"key":"2536_CR28","unstructured":"Liu J, Ali S, Shah M (2008) Recognizing human actions using multiple features. IEEE Conf Comput Vis Pattern Recogn 1\u20138"},{"key":"2536_CR29","doi-asserted-by":"crossref","unstructured":"Liu J, Luo J, Shah M (2009) Recognizing realistic actions from videos \u201cin the wild\u201d. IEEE Conf Comput Vis Pattern Recogn","DOI":"10.1109\/CVPR.2009.5206744"},{"key":"2536_CR30","unstructured":"Liu C et al (2012) Action recognition with discriminative mid-level features. IEEE Int Conf Pattern Recogn 3366\u20133369"},{"key":"2536_CR31","doi-asserted-by":"crossref","unstructured":"Marszalek M, Laptev I, Schmid C (2009) Actions in context. IEEE Conf Comput Vis Pattern Recogn","DOI":"10.1109\/CVPR.2009.5206557"},{"key":"2536_CR32","doi-asserted-by":"crossref","unstructured":"Murthy OR, Goecke R (2013) Combined ordered and improved trajectories for large scale human action recognition","DOI":"10.1109\/ICCVW.2013.61"},{"key":"2536_CR33","doi-asserted-by":"crossref","unstructured":"Murthy OR, Goecke R (2013) Ordered trajectories for large scale human action recognition. IEEE Int Conf Comput Vis Works","DOI":"10.1109\/ICCVW.2013.61"},{"key":"2536_CR34","doi-asserted-by":"crossref","unstructured":"Murthy OR, Radwan I, Goecke R (2014) Dense body part trajectories for human action recognition","DOI":"10.1109\/ICIP.2014.7025293"},{"key":"2536_CR35","first-page":"392","volume-title":"Modeling temporal structure of decomposable motion segments for activity classification [M]\/\/computer vision\u2013ECCV 2010","author":"JC Niebles","year":"2010","unstructured":"Niebles JC, Chen CW, Fei-Fei L (2010) Modeling temporal structure of decomposable motion segments for activity classification [M]\/\/computer vision\u2013ECCV 2010. Springer, Berlin, pp 392\u2013405"},{"key":"2536_CR36","doi-asserted-by":"crossref","unstructured":"Nowak E, Jurie F, Triggs B (2006) Sampling strategies for bag-of-features image classification. Comput Vis\u2013ECCV 2006. Springer. 490\u2013503","DOI":"10.1007\/11744085_38"},{"issue":"7","key":"2536_CR37","doi-asserted-by":"crossref","first-page":"677","DOI":"10.1109\/34.598226","volume":"19","author":"VI Pavlovic","year":"1997","unstructured":"Pavlovic VI, Sharma R, Huang TS (1997) Visual interpretation of hand gestures for human-computer interaction: a review. IEEE Trans Pattern Anal Mach Intell 19(7):677\u2013695","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"2536_CR38","doi-asserted-by":"crossref","unstructured":"Perronnin F, Dance C (2007) Fisher kernels on visual vocabularies for image categorization. IEEE Conf Comput Vis Pattern Recogn 1\u20138","DOI":"10.1109\/CVPR.2007.383266"},{"key":"2536_CR39","doi-asserted-by":"crossref","unstructured":"Perronnin F, S\u00e1nchez J, Mensink T (2010) Improving the fisher kernel for large-scale image classification. Comput Vis\u2013ECCV 2010. Springer. 143\u2013156","DOI":"10.1007\/978-3-642-15561-1_11"},{"key":"2536_CR40","doi-asserted-by":"crossref","unstructured":"Ramanathan M, Yau WY, Teoh EK (2014) Human action recognition with video data: research and evaluation challenges. IEEE Trans Hum Mach Syst","DOI":"10.1109\/THMS.2014.2325871"},{"issue":"5","key":"2536_CR41","doi-asserted-by":"crossref","first-page":"971","DOI":"10.1007\/s00138-012-0450-4","volume":"24","author":"KK Reddy","year":"2013","unstructured":"Reddy KK, Shah M (2013) Recognizing 50 human action categories of web videos [J]. Mach Vis Appl 24(5):971\u2013981","journal-title":"Mach Vis Appl"},{"key":"2536_CR42","unstructured":"Roca X (2011) A selective spatio-temporal interest point detector for human action recognition in complex scenes. Int Conf Comput Vis 1776\u20131783"},{"key":"2536_CR43","doi-asserted-by":"crossref","unstructured":"Rodriguez M, Ahmed J, Shah M (2008) Action MACH: a patio-temporal maximum average correlation height filter for action recognition. IEEE Conf Comput Vis Pattern Recogn","DOI":"10.1109\/CVPR.2008.4587727"},{"key":"2536_CR44","unstructured":"Sadanand S, Corso JJ Action bank: a high-level representation of activity in video. IEEE Conf Comput Vis Pattern Recogn 1234\u20131241"},{"key":"2536_CR45","unstructured":"Schuldt C, Laptev I, Caputo B (2014) Recognizing human actions: a local SVM approach. Proc Int Conf Pattern Recogn 32\u201336"},{"key":"2536_CR46","doi-asserted-by":"crossref","unstructured":"Scovanner P, Ali S, Shah M (2007) A 3-dimensional sift descriptor and its application to action recognition. In Proceedings of the 15th international conference on Multimedia. ACM 357\u2013360","DOI":"10.1145\/1291233.1291311"},{"issue":"15","key":"2536_CR47","doi-asserted-by":"crossref","first-page":"1771","DOI":"10.1016\/j.patrec.2012.12.013","volume":"34","author":"AH Shabani","year":"2013","unstructured":"Shabani AH, Zelek JS, Clausi DA (2013) Multiple scale-specific representations for improved human action recognition. Pattern Recogn Lett 34(15):1771\u20131779","journal-title":"Pattern Recogn Lett"},{"key":"2536_CR48","doi-asserted-by":"crossref","unstructured":"Snoek CG, Worring M, Smeulders AW (2005) Early versus late fusion in semantic video analysis. In Proceedings of the 13th annual ACM international conference on Multimedia. ACM 399\u2013402","DOI":"10.1145\/1101149.1101236"},{"key":"2536_CR49","unstructured":"Soomro K, Zamir AR, Shah M (2012) UCF101: a dataset of 101 human actions classes from videos in the wild. arXiv preprint arXiv:1212.0402"},{"key":"2536_CR50","doi-asserted-by":"crossref","unstructured":"Ullah MM, Parizi SN, Laptev I (2010) Improving bag-of-features action recognition with non-local cues. BMVC 95.1\u201395.11","DOI":"10.5244\/C.24.95"},{"key":"2536_CR51","doi-asserted-by":"crossref","unstructured":"Wang H, Schmid C (2013) Action recognition with improved trajectories. Int Conf Comput Vis","DOI":"10.1109\/ICCV.2013.441"},{"key":"2536_CR52","doi-asserted-by":"crossref","unstructured":"Wang H et al (2013) Dense trajectories and motion boundary descriptors for action recognition. Int J Comput Vis 1\u201320","DOI":"10.1007\/s11263-012-0588-6"},{"key":"2536_CR53","doi-asserted-by":"crossref","unstructured":"Wang H et al (2011) Action recognition by dense trajectories. IEEE Conf Comput Vis Pattern Recogn","DOI":"10.1109\/CVPR.2011.5995407"},{"key":"2536_CR54","doi-asserted-by":"crossref","unstructured":"Wang H et al (2009) Evaluation of local spatio-temporal features for action recognition. Br Mach Vis Conf","DOI":"10.5244\/C.23.124"},{"issue":"2","key":"2536_CR55","doi-asserted-by":"crossref","first-page":"224","DOI":"10.1016\/j.cviu.2010.10.002","volume":"115","author":"D Weinland","year":"2011","unstructured":"Weinland D, Ronfard R, Boyer E (2011) A survey of vision-based methods for action representation, segmentation and recognition. Comput Vis Image Underst 115(2):224\u2013241","journal-title":"Comput Vis Image Underst"},{"key":"2536_CR56","first-page":"650","volume-title":"An efficient dense and scale-invariant spatio-temporal interest point detector [M]\/\/computer vision\u2013ECCV 2008","author":"G Willems","year":"2008","unstructured":"Willems G, Tuytelaars T, Van Gool L (2008) An efficient dense and scale-invariant spatio-temporal interest point detector [M]\/\/computer vision\u2013ECCV 2008. Springer, Berlin, pp 650\u2013663"},{"key":"2536_CR57","doi-asserted-by":"crossref","unstructured":"Wu S, Oreifej O, Shah M (2011) Action recognition in videos acquired by a moving camera using motion decomposition of lagrangian particle trajectories. IEEE Int Conf Comput Vis","DOI":"10.1109\/ICCV.2011.6126397"},{"issue":"2","key":"2536_CR58","doi-asserted-by":"crossref","first-page":"236","DOI":"10.1109\/TCSVT.2012.2203731","volume":"23","author":"D Wu","year":"2013","unstructured":"Wu D, Shao L (2013) Silhouette analysis-based action recognition via exploiting human poses. IEEE Trans Circuits Syst Video Technol 23(2):236\u2013243","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"issue":"4","key":"2536_CR59","doi-asserted-by":"crossref","first-page":"875","DOI":"10.1109\/TSMCA.2012.2226575","volume":"43","author":"Q Wu","year":"2013","unstructured":"Wu Q et al (2013) Realistic human action recognition with multimodal feature selection and fusion. IEEE Trans Syst Man Cybern Syst 43(4):875\u2013885","journal-title":"IEEE Trans Syst Man Cybern Syst"},{"key":"2536_CR60","doi-asserted-by":"crossref","unstructured":"Wu X et al (2011) Action recognition using context and appearance distribution features. IEEE Conf Comput Vis Pattern Recogn 489\u2013496","DOI":"10.1109\/CVPR.2011.5995624"},{"key":"2536_CR61","unstructured":"Xu H, Tian Q, Wang Z et al (2014) Human action recognition using late fusion and dimensionality reduction[C]\/\/Digital Signal Processing (DSP). IEEE Int Conf 63\u201367"},{"key":"2536_CR62","doi-asserted-by":"crossref","unstructured":"Yan S et al (2012) Beyond spatial pyramids: a new feature extraction framework with dense spatial sampling for image classification. Comp Vis\u2013ECCV 2012. Springer 473\u2013487","DOI":"10.1007\/978-3-642-33765-9_34"},{"key":"2536_CR63","unstructured":"Yanai K (2014) A dense SURF and triangulation based spatio-temporal feature for action recognition. MultiMedia Model. Springer 375\u2013387"},{"issue":"2","key":"2536_CR64","doi-asserted-by":"crossref","first-page":"213","DOI":"10.1007\/s11263-006-9794-4","volume":"73","author":"J Zhang","year":"2007","unstructured":"Zhang J et al (2007) Local features and kernels for classification of texture and object categories: a comprehensive study. Int J Comput Vis 73(2):213\u2013238","journal-title":"Int J Comput Vis"},{"issue":"7","key":"2536_CR65","doi-asserted-by":"crossref","first-page":"853","DOI":"10.1109\/TCSVT.2011.2133090","volume":"21","author":"T Zhang","year":"2011","unstructured":"Zhang T et al (2011) Boosted exemplar learning for action recognition and annotation. IEEE Trans Circuits Syst Video Technol 21(7):853\u2013866","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"2536_CR66","unstructured":"Zhang T et al (2009) Boosted exemplar learning for human action recognition. IEEE Int Conf Comput Vis Works 538\u2013545"},{"key":"2536_CR67","doi-asserted-by":"crossref","unstructured":"Zhou, X et al (2010) Image classification using super-vector coding of local image descriptors. Comput Vis\u2013ECCV 2010. Springer 141\u2013154","DOI":"10.1007\/978-3-642-15555-0_11"},{"key":"2536_CR68","doi-asserted-by":"crossref","unstructured":"Zhou X et al (2008) Sift-bag kernel for video event analysis. Proceedings of the 16th ACM international conference on Multimedia. ACM 229\u2013238","DOI":"10.1145\/1459359.1459391"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-015-2536-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-015-2536-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-015-2536-2","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,8,22]],"date-time":"2019-08-22T00:39:31Z","timestamp":1566434371000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-015-2536-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,3,15]]},"references-count":68,"journal-issue":{"issue":"10","published-print":{"date-parts":[[2016,5]]}},"alternative-id":["2536"],"URL":"https:\/\/doi.org\/10.1007\/s11042-015-2536-2","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2015,3,15]]}}}