{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,26]],"date-time":"2026-06-26T07:39:06Z","timestamp":1782459546724,"version":"3.54.5"},"reference-count":67,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2013,3,6]],"date-time":"2013-03-06T00:00:00Z","timestamp":1362528000000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2013,5]]},"DOI":"10.1007\/s11263-012-0594-8","type":"journal-article","created":{"date-parts":[[2013,3,5]],"date-time":"2013-03-05T12:27:38Z","timestamp":1362486458000},"page":"60-79","source":"Crossref","is-referenced-by-count":1396,"title":["Dense Trajectories and Motion Boundary Descriptors for Action Recognition"],"prefix":"10.1007","volume":"103","author":[{"given":"Heng","family":"Wang","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Alexander","family":"Kl\u00e4ser","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Cordelia","family":"Schmid","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Cheng-Lin","family":"Liu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2013,3,6]]},"reference":[{"key":"594_CR1","first-page":"1555","volume":"18","author":"N Anjum","year":"2008","unstructured":"Anjum, N., & Cavallaro, A. (2008). Multifeature object trajectory clustering for video analysis. IEEE Transactions on Multimedia, 18, 1555\u20131564.","journal-title":"IEEE Transactions on Multimedia"},{"key":"594_CR2","doi-asserted-by":"crossref","unstructured":"Bay, H., Tuytelaars, T., & Gool, L. V. (2006). SURF: Speeded up robust features. In European conference on computer vision.","DOI":"10.1007\/11744023_32"},{"key":"594_CR3","doi-asserted-by":"crossref","unstructured":"Bhattacharya, S., Sukthankar, R., Jin, R., & Shah, M. (2011). A probabilistic representation for efficient large scale visual recognition tasks. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2011.5995746"},{"key":"594_CR4","doi-asserted-by":"crossref","unstructured":"Bregonzio, M., Gong, S., & Xiang, T. (2009). Recognising action as clouds of space-time interest points. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2009.5206779"},{"key":"594_CR5","doi-asserted-by":"crossref","unstructured":"Brendel, W., & Todorovic, S. (2010). Activities as time series of human postures. In European conference on computer vision.","DOI":"10.1007\/978-3-642-15552-9_52"},{"key":"594_CR6","doi-asserted-by":"crossref","unstructured":"Brendel, W., & Todorovic, S. (2011). Learning spatiotemporal graphs of human activities. In IEEE international conference on computer vision.","DOI":"10.1109\/ICCV.2011.6126316"},{"key":"594_CR7","doi-asserted-by":"crossref","unstructured":"Brox, T., & Malik, J. (2010). Object segmentation by long term analysis of point trajectories. In European conference on computer vision.","DOI":"10.1007\/978-3-642-15555-0_21"},{"issue":"3","key":"594_CR8","doi-asserted-by":"crossref","first-page":"500","DOI":"10.1109\/TPAMI.2010.143","volume":"33","author":"T Brox","year":"2011","unstructured":"Brox, T., & Malik, J. (2011). Large displacement optical flow: Descriptor matching in variational motion estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(3), 500\u2013513.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"594_CR9","doi-asserted-by":"crossref","unstructured":"Dalal, N., & Triggs, B. (2005). Histograms of oriented gradients for human detection. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2005.177"},{"key":"594_CR10","doi-asserted-by":"crossref","unstructured":"Dalal, N., Triggs, B., & Schmid, C. (2006). Human detection using oriented histograms of flow and appearance. In European conference on computer vision.","DOI":"10.1007\/11744047_33"},{"key":"594_CR11","doi-asserted-by":"crossref","unstructured":"Doll\u00e1r, P., Rabaud, V., Cottrell, G., & Belongie, S. (2005). Behavior recognition via sparse spatio-temporal features. In IEEE workshop visual surveillance and performance evaluation of tracking and surveillance.","DOI":"10.1109\/VSPETS.2005.1570899"},{"key":"594_CR12","doi-asserted-by":"crossref","unstructured":"Farneb\u00e4ck, G. (2003). Two-frame motion estimation based on polynomial expansion. In Proceedings of the Scandinavian conference on image analysis.","DOI":"10.1007\/3-540-45103-X_50"},{"key":"594_CR13","doi-asserted-by":"crossref","unstructured":"Fei-Fei, L., & Perona, P. (2005). A Bayesian hierarchical model for learning natural scene categories. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2005.16"},{"key":"594_CR14","doi-asserted-by":"crossref","unstructured":"Gaidon, A., Harchaoui, & Schmid, C. (2012) Recognizing activities with cluster-trees of tracklets. In British Machine Vision Conference.","DOI":"10.5244\/C.26.30"},{"issue":"5","key":"594_CR15","doi-asserted-by":"crossref","first-page":"883","DOI":"10.1109\/TPAMI.2010.144","volume":"33","author":"A Gilbert","year":"2011","unstructured":"Gilbert, A., Illingworth, J., & Bowden, R. (2011). Action recognition using mined hierarchical compound features. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(5), 883\u2013897.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"594_CR16","doi-asserted-by":"crossref","first-page":"1533","DOI":"10.1109\/TCSVT.2008.2005609","volume":"18","author":"A Hervieu","year":"2008","unstructured":"Hervieu, A., Bouthemy, P., & Cadre, J. P. L. (2008). A statistical video content recognition method using invariant features on object trajectories. IEEE Transactions on Circuits and Systems for Video Technology, 18, 1533\u20131543.","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"key":"594_CR17","doi-asserted-by":"crossref","unstructured":"Ikizler-Cinbis, N., & Sclaroff, S. (2010). Object, scene and actions: Combining multiple features for human action recognition. In European conference on computer vision.","DOI":"10.1007\/978-3-642-15549-9_36"},{"key":"594_CR18","doi-asserted-by":"crossref","first-page":"609","DOI":"10.1016\/0262-8856(96)01101-8","volume":"14","author":"N Johnson","year":"1996","unstructured":"Johnson, N., & Hogg, D. (1996). Learning the distribution of object trajectories for event recognition. Image and Vision Computing, 14, 609\u2013615.","journal-title":"Image and Vision Computing"},{"issue":"1","key":"594_CR19","doi-asserted-by":"crossref","first-page":"172","DOI":"10.1109\/TPAMI.2010.68","volume":"33","author":"IN Junejo","year":"2011","unstructured":"Junejo, I. N., Dexter, E., Laptev, I., & P\u00e9rez, P. (2011). View-independent action recognition from temporal self-similarities. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(1), 172\u2013185.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"594_CR20","doi-asserted-by":"crossref","first-page":"1565","DOI":"10.1109\/TCSVT.2008.2005600","volume":"18","author":"CR Jung","year":"2008","unstructured":"Jung, C. R., Hennemann, L., & Musse, S. R. (2008). Event detection using trajectory clustering and 4-D histograms. IEEE Transactions on Circuits and Systems for Video Technology, 18, 1565\u20131575.","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"key":"594_CR21","doi-asserted-by":"crossref","unstructured":"Kl\u00e4ser, A., Marsza\u0142ek, M., & Schmid, C. (2008). A spatio-temporal descriptor based on 3D-gradients. In British machine vision conference.","DOI":"10.5244\/C.22.99"},{"key":"594_CR22","unstructured":"Kl\u00e4ser, A., Marsza\u0142ek, M., Laptev, I., & Schmid, C. (2010). Will person detection help bag-of-features action recognition? Tech. Rep. RR-7373, INRIA."},{"key":"594_CR23","doi-asserted-by":"crossref","unstructured":"Kliper-Gross, O., Gurovich, Y., Hassner, T. & Wolf, L. (2012). Motion Interchange Patterns for Action Recognition in Unconstrained Videos. In European Conference on Computer Vision.","DOI":"10.1007\/978-3-642-33783-3_19"},{"key":"594_CR24","doi-asserted-by":"crossref","unstructured":"Kovashka, A., & Grauman, K. (2010). Learning a hierarchy of discriminative space-time neighborhood features for human action recognition. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2010.5539881"},{"key":"594_CR25","doi-asserted-by":"crossref","unstructured":"Kuehne, H., Jhuang, H., Garrote, E., Poggio, T., Serre, T. (2011) HMDB: A large video database for human motion recognition. In IEEE International Conference on Computer Vision, IEEE (pp. 2556\u20132563).","DOI":"10.1109\/ICCV.2011.6126543"},{"issue":"2\u20133","key":"594_CR26","doi-asserted-by":"crossref","first-page":"107","DOI":"10.1007\/s11263-005-1838-7","volume":"64","author":"I Laptev","year":"2005","unstructured":"Laptev, I. (2005). On space-time interest points. International Journal of Computer Vision, 64(2\u20133), 107\u2013123.","journal-title":"International Journal of Computer Vision"},{"key":"594_CR27","doi-asserted-by":"crossref","unstructured":"Laptev, I., Marsza\u0142ek, M., Schmid, C., & Rozenfeld, B. (2008). Learning realistic human actions from movies. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"594_CR28","doi-asserted-by":"crossref","unstructured":"Lazebnik, S., Schmid, C., & Ponce, J. (2006). Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2006.68"},{"key":"594_CR29","doi-asserted-by":"crossref","unstructured":"Le, Q. V., Zou, W. Y., Yeung, S. Y., & Ng, A. Y. (2011). Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2011.5995496"},{"key":"594_CR30","doi-asserted-by":"crossref","unstructured":"Liu, J., Luo, J., & Shah, M. (2009). Recognizing realistic actions from videos in the wild. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2009.5206744"},{"issue":"2","key":"594_CR31","doi-asserted-by":"crossref","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2), 91\u2013110.","journal-title":"International Journal of Computer Vision"},{"key":"594_CR32","doi-asserted-by":"crossref","unstructured":"Lu, W. C., Wang, Y. C. F., & Chen, C. S. (2010). Learning dense optical-flow trajectory patterns for video object extraction. In IEEE advanced video and signal based surveillance conference.","DOI":"10.1109\/AVSS.2010.79"},{"key":"594_CR33","unstructured":"Lucas, B. D., & Kanade, T. (1981). An iterative image registration technique with an application to stereo vision. In International joint conference on artificial intelligence."},{"key":"594_CR34","doi-asserted-by":"crossref","unstructured":"Marsza\u0142ek, M., Laptev, I., & Schmid, C. (2009). Actions in context. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2009.5206557"},{"key":"594_CR35","doi-asserted-by":"crossref","unstructured":"Matikainen, P., Hebert, M. & Sukthankar, R (2009). Trajectons: Action recognition through the motion analysis of tracked features. In ICCV workshops on video-oriented object and event classification.","DOI":"10.1109\/ICCVW.2009.5457659"},{"key":"594_CR36","doi-asserted-by":"crossref","unstructured":"Messing, R., Pal, C., & Kautz, H. (2009). Activity recognition using the velocity histories of tracked keypoints. In IEEE international conference on computer vision.","DOI":"10.1109\/ICCV.2009.5459154"},{"key":"594_CR37","doi-asserted-by":"crossref","unstructured":"Niebles, J. C., Chen, C. W., & Fei-Fei, L. (2010). Modeling temporal structure of decomposable motion segments for activity classification. In European conference on computer vision.","DOI":"10.1007\/978-3-642-15552-9_29"},{"key":"594_CR38","doi-asserted-by":"crossref","unstructured":"Nowak, E., Jurie, F., & Triggs, B. (2006). Sampling strategies for bag-of-features image classification. In European conference on computer vision.","DOI":"10.1007\/11744085_38"},{"issue":"7","key":"594_CR39","doi-asserted-by":"crossref","first-page":"971","DOI":"10.1109\/TPAMI.2002.1017623","volume":"24","author":"T Ojala","year":"2002","unstructured":"Ojala, T., Pietikainen, M., & Maenpaa, T. (2002). Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(7), 971\u2013987.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"594_CR40","doi-asserted-by":"crossref","first-page":"3418","DOI":"10.1109\/TIP.2006.881963","volume":"15","author":"G Piriou","year":"2006","unstructured":"Piriou, G., Bouthemy, P., & Yao, J. F. (2006). Recognition of dynamic video contents with global probabilistic models of visual motion. IEEE Transactions on Image Processing, 15, 3418\u20133431.","journal-title":"IEEE Transactions on Image Processing"},{"key":"594_CR41","doi-asserted-by":"crossref","unstructured":"Raptis, M., & Soatto, S. (2010). Tracklet descriptors for action modeling and video analysis. In European conference on computer vision.","DOI":"10.1007\/978-3-642-15549-9_42"},{"key":"594_CR42","unstructured":"Reddy, K.K. & Shah, M. (2012). Recognizing 50 human action categories of web videos. Machine Vision and Applications, 1\u201311."},{"key":"594_CR43","doi-asserted-by":"crossref","unstructured":"Rodriguez, M. D., Ahmed, J., & Shah, M. (2008). Action MACH a spatio-temporal maximum average correlation height filter for action recognition. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2008.4587727"},{"key":"594_CR44","doi-asserted-by":"crossref","unstructured":"Sadanand, S., & Corso, J. J. (2012). Action bank: A high-level representation of activity in video. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2012.6247806"},{"key":"594_CR45","doi-asserted-by":"crossref","first-page":"72","DOI":"10.1007\/s11263-008-0136-6","volume":"80","author":"P Sand","year":"2008","unstructured":"Sand, P., & Teller, S. (2008). Particle video: Long-range motion estimation using point trajectories. International Journal of Computer Vision, 80, 72\u201391.","journal-title":"International Journal of Computer Vision"},{"key":"594_CR46","doi-asserted-by":"crossref","unstructured":"Sch\u00fcldt, C., Laptev, I., & Caputo, B. (2004). Recognizing human actions: A local SVM approach. In International conference on pattern recognition.","DOI":"10.1109\/ICPR.2004.1334462"},{"key":"594_CR47","doi-asserted-by":"crossref","unstructured":"Scovanner, P., Ali, S., & Shah, M. (2007). A 3-dimensional SIFT descriptor and its application to action recognition. In ACM conference on multimedia.","DOI":"10.1145\/1291233.1291311"},{"key":"594_CR48","unstructured":"Shi, J., & Tomasi, C. (1994). Good features to track. In IEEE conference on computer vision and pattern recognition."},{"key":"594_CR49","unstructured":"Sun, J., Wu, X., Yan, S., Cheong, L. F., Chua, T. S., & Li, J. (2009). Hierarchical spatio-temporal context modeling for action recognition. In IEEE conference on computer vision and pattern recognition."},{"key":"594_CR50","doi-asserted-by":"crossref","unstructured":"Sun, J., Mu, Y., Yan, S., & Cheong, L. F. (2010). Activity recognition using dense long-duration trajectories. In IEEE international conference on multimedia and expo.","DOI":"10.1109\/ICME.2010.5583046"},{"key":"594_CR51","doi-asserted-by":"crossref","unstructured":"Sundaram, N., Brox, T., & Keutzer, K. (2010). Dense point trajectories by GPU-accelerated large displacement optical flow. In European conference on computer vision.","DOI":"10.1007\/978-3-642-15549-9_32"},{"key":"594_CR52","doi-asserted-by":"crossref","unstructured":"Taylor, G. W., Fergus, R., LeCun, Y., & Bregler, C. (2010). Convolutional learning of spatio-temporal features. In European conference on computer vision.","DOI":"10.1007\/978-3-642-15567-3_11"},{"key":"594_CR53","doi-asserted-by":"crossref","unstructured":"Tran, D., & Sorokin, A. (2008). Human activity recognition with metric learning. In European conference on computer vision.","DOI":"10.1007\/978-3-540-88682-2_42"},{"key":"594_CR54","doi-asserted-by":"crossref","unstructured":"Uemura, H., Ishikawa, S., & Mikolajczyk, K. (2008). Feature tracking and motion compensation for action recognition. In British machine vision conference.","DOI":"10.5244\/C.22.30"},{"key":"594_CR55","doi-asserted-by":"crossref","unstructured":"Ullah, M. M., Parizi, S. N., & Laptev, I. (2010). Improving bag-of-features action recognition with non-local cues. In British machine vision conference.","DOI":"10.5244\/C.24.95"},{"key":"594_CR56","doi-asserted-by":"crossref","unstructured":"Wang, H., Kl\u00e4ser, A., Schmid, C., & Liu, C. L. (2011). Action recognition by dense trajectories. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1007\/978-0-85729-057-1"},{"key":"594_CR57","doi-asserted-by":"crossref","unstructured":"Wang, H., Ullah, M. M., Kl\u00e4ser, A., Laptev, I., & Schmid, C. (2009). Evaluation of local spatio-temporal features for action recognition. In British machine vision conference.","DOI":"10.5244\/C.23.124"},{"key":"594_CR58","unstructured":"Wang, X., Ma, K. T., Ng, G. W., & Grimson, W. E. L. (2008). Trajectory analysis and semantic region modeling using a nonparametric Bayesian model. In IEEE international conference on computer vision."},{"key":"594_CR59","doi-asserted-by":"crossref","unstructured":"Weinland, D., Boyer, E., & Ronfard, R. (2007). Action recognition from arbitrary views using 3D exemplars. In IEEE international conference on computer vision.","DOI":"10.1109\/ICCV.2007.4408849"},{"key":"594_CR60","doi-asserted-by":"crossref","unstructured":"Weinland, D., Ronfard, R., & Boyer, E. (2006). Free viewpoint action recognition using motion history volumes. Computer Vision and Image Understanding, 104(2), 249\u2013257.","DOI":"10.1016\/j.cviu.2006.07.013"},{"key":"594_CR61","doi-asserted-by":"crossref","unstructured":"Willems, G., Tuytelaars, T., & Gool, L. (2008). An efficient dense and scale-invariant spatio-temporal interest point detector. In European conference on computer vision.","DOI":"10.1007\/978-3-540-88688-4_48"},{"key":"594_CR62","doi-asserted-by":"crossref","unstructured":"Wong, S. F., & Cipolla, R. (2007). Extracting spatiotemporal interest points using global information. In IEEE international conference on computer vision.","DOI":"10.1109\/ICCV.2007.4408923"},{"key":"594_CR63","doi-asserted-by":"crossref","unstructured":"Wu, S., Oreifej, O., & Shah, M. (2011). Action recognition in videos acquired by a moving camera using motion decomposition of lagrangian particle trajectories. In IEEE international conference on computer vision.","DOI":"10.1109\/ICCV.2011.6126397"},{"key":"594_CR64","doi-asserted-by":"crossref","unstructured":"Wu, X., Xu, D., Duan, L., & Luo, J. (2011). Action recognition using context and appearance distribution features. In IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2011.5995624"},{"key":"594_CR65","doi-asserted-by":"crossref","unstructured":"Yeffet, L., & Wolf, L. (2009). Local trinary patterns for human action recognition. In IEEE international conference on computer vision.","DOI":"10.1109\/ICCV.2009.5459201"},{"key":"594_CR66","doi-asserted-by":"crossref","first-page":"1728","DOI":"10.1109\/TPAMI.2011.38","volume":"33","author":"J Yuan","year":"2011","unstructured":"Yuan, J., Liu, Z., & Wu, Y. (2011). Discriminative video pattern search for efficient action detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33, 1728\u20131743.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"2","key":"594_CR67","doi-asserted-by":"crossref","first-page":"213","DOI":"10.1007\/s11263-006-9794-4","volume":"73","author":"J Zhang","year":"2007","unstructured":"Zhang, J., Marsza\u0142ek, M., Lazebnik, S., & Schmid, C. (2007). Local features and kernels for classification of texture and object categories: A comprehensive study. International Journal of Computer Vision, 73(2), 213\u2013238.","journal-title":"International Journal of Computer Vision"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-012-0594-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11263-012-0594-8\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-012-0594-8","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,7,10]],"date-time":"2019-07-10T13:05:01Z","timestamp":1562763901000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11263-012-0594-8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2013,3,6]]},"references-count":67,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2013,5]]}},"alternative-id":["594"],"URL":"https:\/\/doi.org\/10.1007\/s11263-012-0594-8","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2013,3,6]]}}}