{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T07:27:55Z","timestamp":1740122875228,"version":"3.37.3"},"reference-count":50,"publisher":"Springer Science and Business Media LLC","issue":"13","license":[{"start":{"date-parts":[[2019,1,7]],"date-time":"2019-01-07T00:00:00Z","timestamp":1546819200000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2019,7]]},"DOI":"10.1007\/s11042-018-7032-z","type":"journal-article","created":{"date-parts":[[2019,1,8]],"date-time":"2019-01-08T14:30:58Z","timestamp":1546957858000},"page":"17359-17390","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["An in-depth evaluation framework for spatio-temporal features"],"prefix":"10.1007","volume":"78","author":[{"given":"Julian","family":"Stottinger","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7439-2428","authenticated-orcid":false,"given":"Naeem","family":"Bhatti","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Allan","family":"Hanbury","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2019,1,7]]},"reference":[{"key":"7032_CR1","doi-asserted-by":"crossref","unstructured":"Bay H, Tuytelaars T, Van Gool L (2006) SURF: speeded up robust features. In: ECCV, pp 346\u2013359","DOI":"10.1007\/11744023_32"},{"key":"7032_CR2","doi-asserted-by":"crossref","unstructured":"Bilinski PT, Br\u00e9mond F (2011) Evaluation of local descriptors for action recognition in videos. In: Computer vision systems - 8th international conference, ICVS 2011, Sophia Antipolis, France, September 20\u201322, 2011. Proceedings, pp 61\u201370","DOI":"10.1007\/978-3-642-23968-7_7"},{"key":"7032_CR3","doi-asserted-by":"publisher","unstructured":"Blank M, Gorelick L, Shechtman E, Irani M, Basri R (2005) Actions as space-time shapes. In: ICCV, vol 2, pp 1395\u20131402, DOI \n                    https:\/\/doi.org\/10.1109\/ICCV.2005.28\n                    \n                  , (to appear in print)","DOI":"10.1109\/ICCV.2005.28"},{"issue":"6","key":"7032_CR4","doi-asserted-by":"publisher","first-page":"633","DOI":"10.1016\/j.cviu.2013.01.013","volume":"117","author":"JM Chaquet","year":"2013","unstructured":"Chaquet JM, Carmona EJ, Fern\u00e1ndez-Caballero A (2013) A survey of video datasets for human action and activity recognition. Comput Vis Image Underst 117 (6):633\u2013659","journal-title":"Comput Vis Image Underst"},{"key":"7032_CR5","doi-asserted-by":"crossref","unstructured":"Chaudhry R, Ravichandran A, Hager G, Vidal R (2009) Histograms of oriented optical flow and binet-cauchy kernels on nonlinear dynamical systems for the recognition of human actions. In: CVPR, pp 1932\u20131939","DOI":"10.1109\/CVPR.2009.5206821"},{"key":"7032_CR6","doi-asserted-by":"crossref","unstructured":"Doll\u00e1r P, Rabaud V, Cottrell G, Belongie S (2005) Behavior recognition via sparse spatio-temporal features. In: VS-PETS, pp 65\u201372","DOI":"10.1109\/VSPETS.2005.1570899"},{"key":"7032_CR7","doi-asserted-by":"crossref","unstructured":"Duchenne O, Laptev I, Sivic J, Bach F, Ponce J (2009) Automatic annotation of human actions in video. In: ICCV, pp 1395\u20131402","DOI":"10.1109\/ICCV.2009.5459279"},{"issue":"4","key":"7032_CR8","doi-asserted-by":"publisher","first-page":"1569","DOI":"10.1109\/TIP.2014.2302677","volume":"23","author":"I Everts","year":"2014","unstructured":"Everts I, van Gemert JC, Gevers T (2014) Evaluation of color spatio-temporal interest points for human action recognition. IEEE Trans Image Process 23(4):1569\u20131580","journal-title":"IEEE Trans Image Process"},{"key":"7032_CR9","doi-asserted-by":"crossref","unstructured":"Gaidon A, Harchaoui Z, Schmid C (2011) Actom sequence models for efficient action detection. In: CVPR","DOI":"10.1109\/CVPR.2011.5995646"},{"issue":"P1","key":"7032_CR10","doi-asserted-by":"publisher","first-page":"110","DOI":"10.1016\/j.neucom.2015.07.105","volume":"173","author":"Z Gao","year":"2016","unstructured":"Gao Z, Nie W, Liu A, Zhang H (2016) Evaluation of local spatial-temporal features for cross-view action recognition. Neurocomput 173(P1):110\u2013117","journal-title":"Neurocomput"},{"issue":"12","key":"7032_CR11","doi-asserted-by":"publisher","first-page":"2247","DOI":"10.1109\/TPAMI.2007.70711","volume":"29","author":"L Gorelick","year":"2007","unstructured":"Gorelick L, Blank M, Shechtman E, Irani M, Basri R (2007) Actions as space-time shapes. PAMI 29(12):2247\u20132253","journal-title":"PAMI"},{"key":"7032_CR12","unstructured":"Harris C, Stephens M (1988) A combined corner and edge detection. In: 4th Alvey vision conference, pp 147\u2013151"},{"key":"7032_CR13","doi-asserted-by":"crossref","unstructured":"Hassner T (2013) A critical review of action recognition benchmarks. In: The IEEE conference on computer vision and pattern recognition (CVPR) workshops","DOI":"10.1109\/CVPRW.2013.43"},{"key":"7032_CR14","doi-asserted-by":"publisher","unstructured":"Jhuang H, Serre T, Wolf L, Poggio T (2007) A biologically inspired system for action recognition. In: ICCV, pp 1\u20138, DOI \n                    https:\/\/doi.org\/10.1109\/ICCV.2007.4408988\n                    \n                  , (to appear in print)","DOI":"10.1109\/ICCV.2007.4408988"},{"key":"7032_CR15","doi-asserted-by":"crossref","unstructured":"Junejo I, Dexter E, Laptev I, P\u00e9rez P (2009) View-independent action recognition from temporal self-similarities. PAMI","DOI":"10.1007\/978-3-540-88688-4_22"},{"key":"7032_CR16","doi-asserted-by":"crossref","unstructured":"Ke Q, Kanade T (2005) Quasiconvex optimization for robust geometric reconstruction. In: ICCV, pp 986\u2013993","DOI":"10.1109\/ICCV.2005.197"},{"key":"7032_CR17","unstructured":"Ke Y, Sukthankar R, Hebert M (2005) Efficient visual event detection using volumetric features. In: ICCV, pp 166\u2013173"},{"key":"7032_CR18","doi-asserted-by":"crossref","unstructured":"Kl\u00e4ser A, Marsza\u0142ek M, Schmid C (2008) A spatio-temporal descriptor based on 3d-gradients. In: BMVC, pp 995\u20131004. \n                    http:\/\/lear.inrialpes.fr\/pubs\/2008\/KMS08","DOI":"10.5244\/C.22.99"},{"key":"7032_CR19","doi-asserted-by":"crossref","unstructured":"Kliper-Gross O, Hassner T, Wolf L (2012) The action similarity labeling challenge. IEEE Trans Pattern Anal Mach Intell (TPAMI) 34(3)","DOI":"10.1109\/TPAMI.2011.209"},{"issue":"2","key":"7032_CR20","doi-asserted-by":"publisher","first-page":"107","DOI":"10.1007\/s11263-005-1838-7","volume":"64","author":"I Laptev","year":"2005","unstructured":"Laptev I (2005) On space-time interest points. IJCV 64(2):107\u2013123","journal-title":"IJCV"},{"key":"7032_CR21","doi-asserted-by":"crossref","unstructured":"Laptev I, Lindeberg T (2003) Interest point detection and scale selection in space-time. In: Scale space methods in computer vision, pp 372\u2013387","DOI":"10.1007\/3-540-44935-3_26"},{"key":"7032_CR22","doi-asserted-by":"crossref","unstructured":"Laptev I, P\u00e9rez P (2007) Retrieving actions in movies. In: ICCV, pp 1\u20138","DOI":"10.1109\/ICCV.2007.4409105"},{"key":"7032_CR23","doi-asserted-by":"crossref","unstructured":"Laptev I, Marszalek M, Schmid C, Rozenfeld B (2008) Learning realistic human actions from movies. In: CVPR, pp 1\u20138","DOI":"10.1109\/CVPR.2008.4587756"},{"issue":"2","key":"7032_CR24","doi-asserted-by":"publisher","first-page":"79","DOI":"10.1023\/A:1008045108935","volume":"30","author":"T Lindeberg","year":"1998","unstructured":"Lindeberg T (1998) Feature detection with automatic scale selection. IJCV 30 (2):79\u2013116","journal-title":"IJCV"},{"key":"7032_CR25","doi-asserted-by":"crossref","unstructured":"Marszalek M, Laptev I, Schmid C (2009) Actions in context. In: CVPR, pp 2929\u20132936","DOI":"10.1109\/CVPR.2009.5206557"},{"issue":"1","key":"7032_CR26","doi-asserted-by":"publisher","first-page":"63","DOI":"10.1023\/B:VISI.0000027790.02288.f2","volume":"60","author":"K Mikolajczyk","year":"2004","unstructured":"Mikolajczyk K, Schmid C (2004) Scale and affine invariant interest point detectors. IJCV 60(1):63\u201386","journal-title":"IJCV"},{"issue":"10","key":"7032_CR27","doi-asserted-by":"publisher","first-page":"1615","DOI":"10.1109\/TPAMI.2005.188","volume":"27","author":"K Mikolajczyk","year":"2005","unstructured":"Mikolajczyk K, Schmid C (2005) A performance evaluation of local descriptors. PAMI 27(10):1615\u20131630","journal-title":"PAMI"},{"issue":"1\/2","key":"7032_CR28","doi-asserted-by":"publisher","first-page":"43","DOI":"10.1007\/s11263-005-3848-x","volume":"65","author":"K Mikolajczyk","year":"2005","unstructured":"Mikolajczyk K, Tuytelaars T, Schmid C, Zisserman A, Matas J, Schaffalitzky F, Kadir T, can Gool L (2005) A comparison of affine region detectors. IJCV 65(1\/2):43\u201372","journal-title":"IJCV"},{"key":"7032_CR29","doi-asserted-by":"publisher","unstructured":"Oikonomopoulos A, Patras I, Pantic M (2006) Kernel-based recognition of human actions using spatiotemporal salient points. In: CVPR, pp 151\u2013159. \n                    https:\/\/doi.org\/10.1109\/CVPRW.2006.114","DOI":"10.1109\/CVPRW.2006.114"},{"key":"7032_CR30","unstructured":"P\u00f6nitz T, Donner R, St\u00f6ttinger J, Hanbury A (2010) Efficient and distinct large scale bags of words. In: AAPR, pp 139\u2013146"},{"key":"7032_CR31","doi-asserted-by":"crossref","unstructured":"Rodriguez MD, Ahmed J, Shah M (2008) Action MACH: a spatio-temporal maximum average correlation height filter for action recognition. In: CVPR, pp 1\u20138","DOI":"10.1109\/CVPR.2008.4587727"},{"key":"7032_CR32","doi-asserted-by":"crossref","unstructured":"Sch\u00fcldt C, Laptev I, Caputo B (2004) Recognizing human actions: a local SVM approach. In: ICPR, pp 32\u201336","DOI":"10.1109\/ICPR.2004.1334462"},{"key":"7032_CR33","doi-asserted-by":"crossref","unstructured":"Shabani AH, Clausi DA (2012) Evaluation of local spatio-temporal salient feature detectors for human action recognition. In: IEEE Canadian conference on computer and robot vision","DOI":"10.1109\/CRV.2012.69"},{"key":"7032_CR34","doi-asserted-by":"crossref","unstructured":"Smeaton AF, Over P, Kraaij W (2006) Evaluation campaigns and trecvid. In: Proceedings of the 8th ACM international workshop on multimedia information retrieval, MIR \u201906, pp 321\u2013330","DOI":"10.1145\/1178677.1178722"},{"key":"7032_CR35","doi-asserted-by":"crossref","unstructured":"St\u00f6ttinger J, Zambanini S, Khan R, Hanbury A (2010) FeEval\u2014a dataset for evaluation of spatio-temporal local features. In: ICPR, pp 499\u2013503","DOI":"10.1109\/ICPR.2010.128"},{"issue":"4","key":"7032_CR36","doi-asserted-by":"publisher","first-page":"407","DOI":"10.1162\/105474605774785325","volume":"14","author":"T Svoboda","year":"2005","unstructured":"Svoboda T, Martinec D, Pajdla T (2005) A convenient multicamera self-calibration for virtual environments. PTVE 14(4):407\u2013422. \n                    https:\/\/doi.org\/10.1162\/105474605774785325","journal-title":"PTVE"},{"key":"7032_CR37","doi-asserted-by":"crossref","unstructured":"Tamrakar A, Ali S, Yu Q, Liu J, Javed O, Divakaran A, Cheng H, Sawhney HS (2012) Evaluation of low-level features and their combinations for complex event detection in open source videos. In: 2012 IEEE conference on computer vision and pattern recognition, Providence, RI, USA, June 16\u201321, 2012, pp 3681\u20133688","DOI":"10.1109\/CVPR.2012.6248114"},{"key":"7032_CR38","doi-asserted-by":"crossref","unstructured":"Wang L, Zhou L, Shen C (2008) A fast algorithm for creating a compact and discriminative visual codebook. In: ECCV, pp 719\u2013732","DOI":"10.1007\/978-3-540-88693-8_53"},{"key":"7032_CR39","doi-asserted-by":"crossref","unstructured":"Wang H, Ullah M, Kl\u00e4ser A, Laptev I, Schmid C (2009) Evaluation of local spatio-temporal features for action recognition. In: BMVC, pp 127\u2013138","DOI":"10.5244\/C.23.124"},{"key":"7032_CR40","doi-asserted-by":"crossref","unstructured":"Wang H, Kl\u00e4ser A, Schmid C, Cheng-Lin L (2011) Action recognition by dense trajectories. In: CVPR, pp 3169\u20133176","DOI":"10.1109\/CVPR.2011.5995407"},{"issue":"2","key":"7032_CR41","doi-asserted-by":"publisher","first-page":"249","DOI":"10.1016\/j.cviu.2006.07.013","volume":"104","author":"D Weinland","year":"2006","unstructured":"Weinland D, Ronfard R, Boyer E (2006) Free viewpoint action recognition using motion history volumes. Comput Vis Image Underst 104(2):249\u2013257","journal-title":"Comput Vis Image Underst"},{"key":"7032_CR42","doi-asserted-by":"publisher","unstructured":"Willems G, Tuytelaars T, Gool L (2008) An efficient dense and scale-invariant spatio-temporal interest point detector. In: ECCV, pp 650\u2013663, DOI \n                    https:\/\/doi.org\/10.1007\/978-3-540-88688-4_48\n                    \n                  , (to appear in print)","DOI":"10.1007\/978-3-540-88688-4_48"},{"key":"7032_CR43","unstructured":"Wong SF, Cipolla R (2007) Extracting spatiotemporal interest points using global information. In: ICCV, pp 1\u20138"},{"issue":"3","key":"7032_CR44","doi-asserted-by":"publisher","first-page":"624","DOI":"10.1109\/TCSVT.2016.2589838","volume":"27","author":"Y Xian","year":"2017","unstructured":"Xian Y, Rong X, Yang X, Tian Y (2017) Evaluation of low-level features for real-world surveillance event detection. IEEE Trans Circuits Syst Video Technol 27 (3):624\u2013634","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"7032_CR45","unstructured":"Yan C, Xie H, Chen J, Zha Z, Hao X, Zhang Y, Dai Q (2018) An effective uyghur text detector for complex background images. IEEE Trans Multimed 1\u20131"},{"issue":"1","key":"7032_CR46","doi-asserted-by":"publisher","first-page":"220","DOI":"10.1109\/TITS.2017.2749977","volume":"19","author":"C Yan","year":"2018","unstructured":"Yan C, Xie H, Liu S, Yin J, Zhang Y, Dai Q (2018) Effective uyghur language text detection in complex background images for traffic prompt identification. IEEE Trans Intell Transp Syst 19(1):220\u2013229","journal-title":"IEEE Trans Intell Transp Syst"},{"issue":"1","key":"7032_CR47","doi-asserted-by":"publisher","first-page":"284","DOI":"10.1109\/TITS.2017.2749965","volume":"19","author":"C Yan","year":"2018","unstructured":"Yan C, Xie H, Yang D, Yin J, Zhang Y, Dai Q (2018) Supervised hash coding with deep neural network for environment perception of intelligent vehicles. IEEE Trans Intell Transp Syst 19(1):284\u2013295","journal-title":"IEEE Trans Intell Transp Syst"},{"issue":"5","key":"7032_CR48","doi-asserted-by":"publisher","first-page":"573","DOI":"10.1109\/LSP.2014.2310494","volume":"21","author":"C Yan","year":"2014","unstructured":"Yan C, Zhang Y, Xu J, Dai F, Li L, Dai Q, Wu F (2014) A highly parallel framework for hevc coding unit partitioning tree decision on many-core processors. IEEE Signal Process Lett 21(5):573\u2013576","journal-title":"IEEE Signal Process Lett"},{"issue":"12","key":"7032_CR49","doi-asserted-by":"publisher","first-page":"2077","DOI":"10.1109\/TCSVT.2014.2335852","volume":"24","author":"C Yan","year":"2014","unstructured":"Yan C, Zhang Y, Xu J, Dai F, Zhang J, Dai Q, Wu F (2014) Efficient parallel framework for hevc motion estimation on many-core processors. IEEE Trans Circuits Syst Video Technol 24(12):2077\u20132089","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"issue":"8","key":"7032_CR50","doi-asserted-by":"publisher","first-page":"453","DOI":"10.1016\/j.imavis.2014.04.005","volume":"32","author":"Y Zhu","year":"2014","unstructured":"Zhu Y, Chen W, Guo G (2014) Evaluating spatiotemporal interest point features for depth-based action recognition. Image Vision Comput 32(8):453\u2013464","journal-title":"Image Vision Comput"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-018-7032-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-018-7032-z\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-018-7032-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,1,6]],"date-time":"2020-01-06T19:11:30Z","timestamp":1578337890000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-018-7032-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,1,7]]},"references-count":50,"journal-issue":{"issue":"13","published-print":{"date-parts":[[2019,7]]}},"alternative-id":["7032"],"URL":"https:\/\/doi.org\/10.1007\/s11042-018-7032-z","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"type":"print","value":"1380-7501"},{"type":"electronic","value":"1573-7721"}],"subject":[],"published":{"date-parts":[[2019,1,7]]},"assertion":[{"value":"23 May 2018","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"28 November 2018","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"3 December 2018","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 January 2019","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}