{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,25]],"date-time":"2026-06-25T09:55:04Z","timestamp":1782381304547,"version":"3.54.5"},"reference-count":48,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2017,10,5]],"date-time":"2017-10-05T00:00:00Z","timestamp":1507161600000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61472103"],"award-info":[{"award-number":["61472103"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2019,1]]},"DOI":"10.1007\/s11042-017-5251-3","type":"journal-article","created":{"date-parts":[[2017,10,5]],"date-time":"2017-10-05T12:38:46Z","timestamp":1507207126000},"page":"507-523","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":30,"title":["Action recognition with multi-scale trajectory-pooled 3D convolutional descriptors"],"prefix":"10.1007","volume":"78","author":[{"given":"Xiusheng","family":"Lu","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hongxun","family":"Yao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Sicheng","family":"Zhao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xiaoshuai","family":"Sun","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shengping","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2017,10,5]]},"reference":[{"issue":"3","key":"5251_CR1","doi-asserted-by":"publisher","first-page":"16","DOI":"10.1145\/1922649.1922653","volume":"43","author":"JK Aggarwal","year":"2011","unstructured":"Aggarwal JK, Ryoo MS (2011) Human activity analysis: a review. ACM Comput Surv (CSUR) 43(3):16","journal-title":"ACM Comput Surv (CSUR)"},{"key":"5251_CR2","doi-asserted-by":"crossref","unstructured":"Bay H, Tuytelaars T, Van Gool L (2006) Surf: speeded up robust features. In: Computer vision\u2013ECCV 2006, pp 404\u2013417","DOI":"10.1007\/11744023_32"},{"issue":"1","key":"5251_CR3","doi-asserted-by":"publisher","first-page":"17","DOI":"10.1007\/s11263-006-0009-9","volume":"74","author":"O Boiman","year":"2007","unstructured":"Boiman O, Irani M (2007) Detecting irregularities in images and in video. Int J Comput Vis 74(1):17\u201331","journal-title":"Int J Comput Vis"},{"key":"5251_CR4","doi-asserted-by":"crossref","unstructured":"Dalal N, Triggs B (2005) Histograms of oriented gradients for human detection. In: IEEE Computer society conference on computer vision and pattern recognition, 2005. CVPR 2005, vol 1. IEEE, pp 886\u2013893","DOI":"10.1109\/CVPR.2005.177"},{"key":"5251_CR5","doi-asserted-by":"crossref","unstructured":"Dalal N, Triggs B, Schmid C (2006) Human detection using oriented histograms of flow and appearance. In: Computer vision\u2013ECCV 2006, pp 428\u2013441","DOI":"10.1007\/11744047_33"},{"issue":"5","key":"5251_CR6","doi-asserted-by":"publisher","first-page":"361","DOI":"10.1016\/j.robot.2006.02.003","volume":"54","author":"Y Demiris","year":"2006","unstructured":"Demiris Y, Khadhouri B (2006) Hierarchical attentive multiple models for execution and recognition of actions. Robot Autonom Syst 54(5):361\u2013369","journal-title":"Robot Autonom Syst"},{"key":"5251_CR7","unstructured":"Diba A, Sharma V, Van Gool L (2016) Deep temporal linear encoding networks. arXiv: 1611.06678"},{"key":"5251_CR8","doi-asserted-by":"crossref","unstructured":"Donahue J, Anne Hendricks L, Guadarrama S, Rohrbach M, Venugopalan S, Saenko K, Darrell T (2015) Long-term recurrent convolutional networks for visual recognition and description. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2625\u20132634","DOI":"10.1109\/CVPR.2015.7298878"},{"issue":"1","key":"5251_CR9","first-page":"2617","volume":"14","author":"SR Fanello","year":"2013","unstructured":"Fanello SR, Gori I, Metta G, Odone F (2013) Keep it simple and sparse: real-time action recognition. J Mach Learn Res 14(1):2617\u20132640","journal-title":"J Mach Learn Res"},{"key":"5251_CR10","doi-asserted-by":"crossref","unstructured":"Fei-Fei L, Perona P (2005) A bayesian hierarchical model for learning natural scene categories. In: IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005. CVPR 2005, vol 2. IEEE, pp 524\u2013531","DOI":"10.1109\/CVPR.2005.16"},{"issue":"6","key":"5251_CR11","doi-asserted-by":"publisher","first-page":"381","DOI":"10.1145\/358669.358692","volume":"24","author":"MA Fischler","year":"1981","unstructured":"Fischler MA, Bolles RC (1981) Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Commun ACM 24(6):381\u2013395","journal-title":"Commun ACM"},{"key":"5251_CR12","unstructured":"Graves A, Jaitly N (2014) Towards end-to-end speech recognition with recurrent neural networks. In: Proceedings of the 31st international conference on machine learning (ICML-14), pp 1764\u20131772"},{"key":"5251_CR13","doi-asserted-by":"crossref","unstructured":"Harris C, Stephens M (1988) A combined corner and edge detector. In: Alvey vision conference, vol 15, no 50. Manchester, pp 5210\u20135244","DOI":"10.5244\/C.2.23"},{"issue":"8","key":"5251_CR14","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780","journal-title":"Neural Comput"},{"key":"5251_CR15","doi-asserted-by":"crossref","unstructured":"Jhuang H, Serre T, Wolf L, Poggio T (2007) A biologically inspired system for action recognition. In: IEEE 11th international conference on computer vision, 2007. ICCV 2007. IEEE, pp 1\u20138","DOI":"10.1109\/ICCV.2007.4408988"},{"issue":"1","key":"5251_CR16","doi-asserted-by":"publisher","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","volume":"35","author":"S Ji","year":"2013","unstructured":"Ji S, Xu W, Yang M, Yu K (2013) 3d convolutional neural networks for human action recognition. IEEE Trans Pattern Anal Mach Intell 35(1):221\u2013231","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"5251_CR17","doi-asserted-by":"crossref","unstructured":"Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Fei-Fei L (2014) Large-scale video classification with convolutional neural networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1725\u20131732","DOI":"10.1109\/CVPR.2014.223"},{"key":"5251_CR18","doi-asserted-by":"crossref","unstructured":"Klaser A, Marsza\u0142ek M, Schmid C (2008) A spatio-temporal descriptor based on 3d-gradients. In: BMVC 2008-19th British machine vision conference. British Machine Vision Association, pp 275\u20131","DOI":"10.5244\/C.22.99"},{"key":"5251_CR19","unstructured":"Krizhevsky A, Sutskever I, Hinton GE (2012) Imagenet classification with deep convolutional neural networks. In: Advances in neural information processing systems, pp 1097\u20131105"},{"key":"5251_CR20","doi-asserted-by":"crossref","unstructured":"Kuehne H, Jhuang H, Garrote E, Poggio T, Serre T (2011) Hmdb: a large video database for human motion recognition. In: 2011 IEEE international conference on computer vision (ICCV). IEEE, pp 2556\u20132563","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"5251_CR21","doi-asserted-by":"crossref","unstructured":"Laptev I, Marsza\u0142ek M, Schmid C, Rozenfeld B (2008) Learning realistic human actions from movies. In: IEEE conference on computer vision and pattern recognition, 2008. CVPR 2008. IEEE, pp 1\u20138","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"5251_CR22","doi-asserted-by":"crossref","unstructured":"Le QV, Zou WY, Yeung SY, Ng AY (2011) Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In: 2011 IEEE Conference on computer vision and pattern recognition (CVPR). IEEE, pp 3361\u20133368","DOI":"10.1109\/CVPR.2011.5995496"},{"issue":"1","key":"5251_CR23","doi-asserted-by":"publisher","first-page":"102","DOI":"10.1109\/TPAMI.2016.2537337","volume":"39","author":"AA Liu","year":"2017","unstructured":"Liu AA, Su YT, Nie WZ, Kankanhalli M (2017) Hierarchical clustering multi-task learning for joint human action grouping and recognition. IEEE Trans Pattern Anal Mach Intell 39(1):102\u2013114","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"2","key":"5251_CR24","doi-asserted-by":"publisher","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe DG (2004) Distinctive image features from scale-invariant keypoints. Int J Comput Vis 60(2):91\u2013110","journal-title":"Int J Comput Vis"},{"key":"5251_CR25","doi-asserted-by":"crossref","unstructured":"Lu X, Yao H, Sun X, Zhang S, Zhang Y (2017) Trajectory-pooled 3d convolutional descriptors for action recognition. In: Pacific rim conference on multimedia","DOI":"10.1007\/978-3-319-77380-3_24"},{"key":"5251_CR26","doi-asserted-by":"publisher","first-page":"109","DOI":"10.1016\/j.imavis.2016.04.011","volume":"55","author":"W Nie","year":"2016","unstructured":"Nie W, Liu A, Li W, Su Y (2016) Cross-view action recognition by cross-domain learning. Image Vis Comput 55:109\u2013118","journal-title":"Image Vis Comput"},{"issue":"6","key":"5251_CR27","doi-asserted-by":"publisher","first-page":"976","DOI":"10.1016\/j.imavis.2009.11.014","volume":"28","author":"R Poppe","year":"2010","unstructured":"Poppe R (2010) A survey on vision-based human action recognition. Image Vis Comput 28(6):976\u2013990","journal-title":"Image Vis Comput"},{"issue":"1","key":"5251_CR28","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s10462-012-9356-9","volume":"43","author":"SS Rautaray","year":"2015","unstructured":"Rautaray SS, Agrawal A (2015) Vision based hand gesture recognition for human computer interaction: a survey. Artif Intell Rev 43(1):1\u201354","journal-title":"Artif Intell Rev"},{"issue":"3","key":"5251_CR29","doi-asserted-by":"publisher","first-page":"222","DOI":"10.1007\/s11263-013-0636-x","volume":"105","author":"J S\u00e1nchez","year":"2013","unstructured":"S\u00e1nchez J, Perronnin F, Mensink T, Verbeek J (2013) Image classification with the fisher vector: theory and practice. Int J Comput vis 105(3):222\u2013245","journal-title":"Int J Comput vis"},{"key":"5251_CR30","doi-asserted-by":"crossref","unstructured":"Scovanner P, Ali S, Shah M (2007) A 3-dimensional sift descriptor and its application to action recognition. In: Proceedings of the 15th international conference on multimedia. ACM, pp 357\u2013360","DOI":"10.1145\/1291233.1291311"},{"key":"5251_CR31","unstructured":"Sharma S, Kiros R, Salakhutdinov R (2015) Action recognition using visual attention. arXiv: 1511.04119"},{"key":"5251_CR32","unstructured":"Simonyan K, Zisserman A (2014) Two-stream convolutional networks for action recognition in videos. In: Advances in neural information processing systems, pp 568\u2013576"},{"issue":"4","key":"5251_CR33","doi-asserted-by":"publisher","first-page":"215","DOI":"10.1561\/1500000014","volume":"2","author":"CG Snoek","year":"2008","unstructured":"Snoek CG, Worring M (2008) Concept-based video retrieval. Found Trends Inf Retriev 2(4):215\u2013322","journal-title":"Found Trends Inf Retriev"},{"key":"5251_CR34","unstructured":"Soomro K, Zamir AR, Shah M (2012) Ucf101: a dataset of 101 human actions classes from videos in the wild. arXiv: 1212.0402"},{"key":"5251_CR35","unstructured":"Srivastava N, Mansimov E, Salakhutdinov R (2015) Unsupervised learning of video representations using lstms. In: International conference on machine learning, pp 843\u2013852"},{"key":"5251_CR36","unstructured":"Sutskever I, Vinyals O, Le QV (2014) Sequence to sequence learning with neural networks. In: Advances in neural information processing systems, pp 3104\u20133112"},{"issue":"1","key":"5251_CR37","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1561\/0600000009","volume":"2","author":"R Szeliski","year":"2006","unstructured":"Szeliski R (2006) Image alignment and stitching: a tutorial. Founda Trends Comput Graph Vis 2(1):1\u2013104","journal-title":"Founda Trends Comput Graph Vis"},{"key":"5251_CR38","doi-asserted-by":"crossref","unstructured":"Tran D, Bourdev L, Fergus R, Torresani L, Paluri M (2015) Learning spatiotemporal features with 3d convolutional networks. In: Proceedings of the IEEE international conference on computer vision, pp 4489\u20134497","DOI":"10.1109\/ICCV.2015.510"},{"key":"5251_CR39","doi-asserted-by":"crossref","unstructured":"Wang H, Schmid C (2013) Action recognition with improved trajectories. In: Proceedings of the IEEE international conference on computer vision, pp 3551\u20133558","DOI":"10.1109\/ICCV.2013.441"},{"key":"5251_CR40","doi-asserted-by":"crossref","unstructured":"Wang H, Kl\u00e4ser A, Schmid C, Liu CL (2011) Action recognition by dense trajectories. In: 2011 IEEE conference on computer vision and pattern recognition (CVPR). IEEE, pp 3169\u20133176","DOI":"10.1109\/CVPR.2011.5995407"},{"key":"5251_CR41","doi-asserted-by":"crossref","unstructured":"Wang L, Qiao Y, Tang X (2015) Action recognition with trajectory-pooled deep-convolutional descriptors. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4305\u20134314","DOI":"10.1109\/CVPR.2015.7299059"},{"issue":"1","key":"5251_CR42","doi-asserted-by":"publisher","first-page":"63","DOI":"10.1007\/s00530-014-0393-x","volume":"22","author":"F Wang","year":"2016","unstructured":"Wang F, Qi S, Gao G, Zhao S, Wang X (2016) Logo information recognition in large-scale social media data. Multimed Syst 22(1):63\u201373","journal-title":"Multimed Syst"},{"key":"5251_CR43","doi-asserted-by":"crossref","unstructured":"Wang L, Xiong Y, Wang Z, Qiao Y, Lin D, Tang X, Van Gool L (2016) Temporal segment networks: towards good practices for deep action recognition. In: European conference on computer vision. pp 20\u201336","DOI":"10.1007\/978-3-319-46484-8_2"},{"key":"5251_CR44","doi-asserted-by":"crossref","unstructured":"Yue-Hei Ng J, Hausknecht M, Vijayanarasimhan S, Vinyals O, Monga R, Toderici G (2015) Beyond short snippets: deep networks for video classification. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4694\u20134702","DOI":"10.1109\/CVPR.2015.7299101"},{"key":"5251_CR45","doi-asserted-by":"publisher","first-page":"533","DOI":"10.1016\/j.neucom.2014.03.092","volume":"151","author":"S Zhao","year":"2015","unstructured":"Zhao S, Chen L, Yao H, Zhang Y, Sun X (2015) Strategy for dynamic 3d depth data matching towards robust action retrieval. Neurocomputing 151:533\u2013543","journal-title":"Neurocomputing"},{"key":"5251_CR46","doi-asserted-by":"crossref","unstructured":"Zhao S, Yao H, Gao Y, Ji R, Xie W, Jiang X, Chua TS (2016) Predicting personalized emotion perceptions of social images. In: Proceedings of the 2016 ACM on multimedia conference. ACM, pp 1385\u20131394","DOI":"10.1145\/2964284.2964289"},{"issue":"3","key":"5251_CR47","doi-asserted-by":"publisher","first-page":"632","DOI":"10.1109\/TMM.2016.2617741","volume":"19","author":"S Zhao","year":"2017","unstructured":"Zhao S, Yao H, Gao Y, Ji R, Ding G (2017) Continuous probability distribution prediction of image emotions via multitask shared sparse regression. IEEE Trans Multimed 19(3):632\u2013645","journal-title":"IEEE Trans Multimed"},{"key":"5251_CR48","first-page":"660","volume":"2010","author":"Y Zhu","year":"2011","unstructured":"Zhu Y, Zhao X, Fu Y, Liu Y (2011) Sparse coding on local spatial-temporal volumes for human action recognition. Comput Vis\u2013ACCV 2010:660\u2013671","journal-title":"Comput Vis\u2013ACCV"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-017-5251-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-017-5251-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-017-5251-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,26]],"date-time":"2025-06-26T00:45:41Z","timestamp":1750898741000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-017-5251-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,10,5]]},"references-count":48,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2019,1]]}},"alternative-id":["5251"],"URL":"https:\/\/doi.org\/10.1007\/s11042-017-5251-3","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017,10,5]]},"assertion":[{"value":"1 June 2017","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 September 2017","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"20 September 2017","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"5 October 2017","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}