{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,2]],"date-time":"2026-04-02T01:29:29Z","timestamp":1775093369040,"version":"3.50.1"},"publisher-location":"Cham","reference-count":51,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783319161778","type":"print"},{"value":"9783319161785","type":"electronic"}],"license":[{"start":{"date-parts":[[2015,1,1]],"date-time":"2015-01-01T00:00:00Z","timestamp":1420070400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2015]]},"DOI":"10.1007\/978-3-319-16178-5_33","type":"book-chapter","created":{"date-parts":[[2015,3,18]],"date-time":"2015-03-18T18:28:20Z","timestamp":1426703300000},"page":"474-490","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":92,"title":["Multi-scale Deep Learning for Gesture Detection and Localization"],"prefix":"10.1007","author":[{"given":"Natalia","family":"Neverova","sequence":"first","affiliation":[]},{"given":"Christian","family":"Wolf","sequence":"additional","affiliation":[]},{"given":"Graham W.","family":"Taylor","sequence":"additional","affiliation":[]},{"given":"Florian","family":"Nebout","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2015,3,19]]},"reference":[{"key":"33_CR1","doi-asserted-by":"crossref","unstructured":"Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: CVPR (2014)","DOI":"10.1109\/CVPR.2014.81"},{"key":"33_CR2","unstructured":"Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., LeCun, Y.: OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks. In: ICLR (2014)"},{"key":"33_CR3","unstructured":"Krizhevsky, A., Sutskever, I., Hinton, G.: ImageNet Classification with Deep Convolutional Neural Networks. In: NIPS (2012)"},{"issue":"8","key":"33_CR4","doi-asserted-by":"publisher","first-page":"1915","DOI":"10.1109\/TPAMI.2012.231","volume":"35","author":"C Farabet","year":"2013","unstructured":"Farabet, C., Couprie, C., Najman, L., LeCun, Y.: Learning Hierarchical Features for Scene Labeling. PAMI 35(8), 1915\u20131929 (2013)","journal-title":"PAMI"},{"key":"33_CR5","unstructured":"Couprie, C., Clment, F., Najman, L., LeCun, Y.: Indoor Semantic Segmentation using depth information. In: ICLR (2014)"},{"issue":"11","key":"33_CR6","doi-asserted-by":"publisher","first-page":"2278","DOI":"10.1109\/5.726791","volume":"86","author":"Y LeCun","year":"1998","unstructured":"LeCun, Y., Bottou, L., Bengio, Y., Haffner, P.: Gradient-based learning applied to document recognition. Proceedings of the IEEE 86(11), 2278\u20132324 (1998)","journal-title":"Proceedings of the IEEE"},{"key":"33_CR7","doi-asserted-by":"crossref","unstructured":"Kahou, S.E., Pal, C., Bouthillier, X., Froumenty, P., G\u00fcl\u00e7ehre, C., Memisevic, R., Vincent, P., Courville, A., Bengio, Y.: Combining modality specific deep neural networks for emotion recognition in video. In: ICMI (2013)","DOI":"10.1145\/2522848.2531745"},{"key":"33_CR8","doi-asserted-by":"crossref","unstructured":"aigman, Y., Yang, M., Ranzato, M.A., Wolf, L.: DeepFace: Closing the Gap to Human-Level Performance in Face Verification. In: CVPR (2014)","DOI":"10.1109\/CVPR.2014.220"},{"key":"33_CR9","doi-asserted-by":"crossref","unstructured":"Baccouche, M., Mamalet, F., Wolf, C., Garcia, C., Baskurt, A.: Spatio-Temporal Convolutional Sparse Auto-Encoder for Sequence Classification. In: BMVC (2012)","DOI":"10.5244\/C.26.124"},{"key":"33_CR10","doi-asserted-by":"crossref","unstructured":"Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., Li, F.F.: Large-scale Video Classification with Convolutional Neural Networks. In: CVPR (2014)","DOI":"10.1109\/CVPR.2014.223"},{"key":"33_CR11","unstructured":"Simonyan, K., Zisserman, A.: Two-Stream Convolutional Networks for Action Recognition in Videos. In: arXiv preprint arXiv:1406.2199v1 (2014)"},{"key":"33_CR12","doi-asserted-by":"crossref","unstructured":"Escalera, S., Bar\u00f3, X., Gonz\u00e0lez, J., Bautista, M.A., Madadi, M., Reyes, M., Ponce, V., Escalante, H.J., Shotton, J., Guyon, I.: ChaLearn Looking at People Challenge 2014: Dataset and Results. In: ECCV ChaLearn Workshop on Looking at People (2014)","DOI":"10.1007\/978-3-319-16178-5_32"},{"issue":"1","key":"33_CR13","doi-asserted-by":"publisher","first-page":"60","DOI":"10.1007\/s11263-012-0594-8","volume":"103","author":"H Wang","year":"2013","unstructured":"Wang, H., Kl\u00e4ser, A., Schmid, C., Liu, C.L.: Dense trajectories and motion boundary descriptors for action recognition. IJCV 103(1), 60\u201379 (2013)","journal-title":"IJCV"},{"issue":"1-124","key":"33_CR14","first-page":"11","volume":"124","author":"H Wang","year":"2009","unstructured":"Wang, H., Ullah, M.M., Klaser, A., Laptev, I., Schmid, C.: Evaluation of local spatio-temporal features for action recognition. BMVC 124(1-124), 11 (2009)","journal-title":"BMVC"},{"key":"33_CR15","unstructured":"Doll\u00e1r, P., Rabaud, V., Cottrell, G., Belongie, S.: Behavior Recognition via Sparse Spatio-Temporal Features. In: 2nd Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance (2005)"},{"key":"33_CR16","doi-asserted-by":"crossref","unstructured":"Laptev, I., Marsza\u0142ek, M., Schmid, C., Rozenfeld, B.: Learning realistic human actions from movies. In: CVPR (2008)","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"33_CR17","doi-asserted-by":"crossref","unstructured":"Kl\u00e4ser, A., Marsza\u0142ek, M., Schmid, C.: A spatio-temporal descriptor based on 3D-gradients. In: BMVC (2008)","DOI":"10.5244\/C.22.99"},{"key":"33_CR18","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"650","DOI":"10.1007\/978-3-540-88688-4_48","volume-title":"Computer Vision \u2013 ECCV 2008","author":"G Willems","year":"2008","unstructured":"Willems, G., Tuytelaars, T., Van Gool, L.: An Efficient Dense and Scale-Invariant Spatio-Temporal Interest Point Detector. In: Forsyth, D., Torr, P., Zisserman, A. (eds.) ECCV 2008, Part II. LNCS, vol. 5303, pp. 650\u2013663. Springer, Heidelberg (2008)"},{"key":"33_CR19","doi-asserted-by":"crossref","unstructured":"Keskin, C., Kira\u00e7, F., Kara, Y., Akarun, L.: Real time hand pose estimation using depth sensors. In: ICCV Workshop on Consumer Depth Cameras. IEEE (2011)","DOI":"10.1109\/ICCVW.2011.6130391"},{"key":"33_CR20","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"573","DOI":"10.1007\/978-3-642-33564-8_69","volume-title":"Computer Vision and Graphics","author":"M P\u00f3\u0142rola","year":"2012","unstructured":"P\u00f3\u0142rola, M., Wojciechowski, A.: Real-Time Hand Pose Estimation Using Classifiers. In: Bolc, L., Tadeusiewicz, R., Chmielewski, L.J., Wojciechowski, K. (eds.) ICCVG 2012. LNCS, vol. 7594, pp. 573\u2013580. Springer, Heidelberg (2012)"},{"key":"33_CR21","doi-asserted-by":"crossref","unstructured":"Tang, D., Yu, T.H., Kim, T.K.: Real-time Articulated Hand Pose Estimation using Semi-supervised Transductive Regression Forests. In: ICCV (2013)","DOI":"10.1109\/ICCV.2013.400"},{"key":"33_CR22","doi-asserted-by":"crossref","unstructured":"Tompson, J., Stein, M., LeCun, Y., Perlin, K.: Real-Time Continuous Pose Recovery of Human Hands Using Convolutional Networks. ACM Transaction on Graphics (2014)","DOI":"10.1145\/2629500"},{"issue":"1\u2013101","key":"33_CR23","first-page":"11","volume":"101","author":"I Oikonomidis","year":"2011","unstructured":"Oikonomidis, I., Kyriazis, N., Argyros, A.: Efficient model-based 3D tracking of hand articulations using Kinect. BMVC 101(1\u2013101), 11 (2011)","journal-title":"BMVC"},{"key":"33_CR24","doi-asserted-by":"crossref","unstructured":"Qian, C., Sun, X., Wei, Y., Tang, X., Sun, J.: Realtime and Robust Hand Tracking from Depth. In: CVPR (2014)","DOI":"10.1109\/CVPR.2014.145"},{"key":"33_CR25","doi-asserted-by":"crossref","unstructured":"Wang, F., Li, Y.: Beyond Physical Connections: Tree Models in Human Pose Estimation. In: CVPR (2013)","DOI":"10.1109\/CVPR.2013.83"},{"key":"33_CR26","doi-asserted-by":"crossref","unstructured":"Tang, D., Chang, H.J., Tejani, A., Kim, T.K.: Latent Regression Forest: Structured Estimation of 3D Articulated Hand Posture. In: CVPR (2014)","DOI":"10.1109\/CVPR.2014.490"},{"key":"33_CR27","unstructured":"Wang, J., Liu, Z., Wu, Y., Yuan, J.: Mining actionlet ensemble for action recognition with depth cameras. In: CVPR (2012)"},{"key":"33_CR28","unstructured":"Sung, J., Ponce, C., Selman, B., Saxena, A.: Unstructured Human Activity Detection from RGBD Images. In: ICRA (2012)"},{"key":"33_CR29","doi-asserted-by":"crossref","unstructured":"Chen, X., Koskela, M.: Online RGB-D gesture recognition with extreme learning machines. In: ICMI (2013)","DOI":"10.1145\/2522848.2532591"},{"key":"33_CR30","doi-asserted-by":"crossref","unstructured":"Nandakumar, K., Wah, W.K., Alice, C.S.M., Terence, N.W.Z., Gang, W.J., Yun, Y.W.: A Multi-modal Gesture Recognition System Using Audio, Video, and Skeletal Joint Data Categories and Subject Descriptors. In: 2013 Multi-modal Challenge Workshop in Conjunction with ICMI (2013)","DOI":"10.1145\/2522848.2532593"},{"key":"33_CR31","doi-asserted-by":"crossref","unstructured":"Le, Q.V., Zou, W.Y., Yeung, S.Y., Ng, A.Y.: Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In: CVPR, pp. 3361\u20133368 (2011)","DOI":"10.1109\/CVPR.2011.5995496"},{"key":"33_CR32","doi-asserted-by":"crossref","unstructured":"Ranzato, M., Huang, F.J., Boureau, Y.L., LeCun, Y.: Unsupervised Learning of Invariant Feature Hierarchies with Applications to Object Recognition. In: CVPR (2007)","DOI":"10.1109\/CVPR.2007.383157"},{"key":"33_CR33","unstructured":"Chen, B., Ting, J.A., Marlin, B., de Freitas, N.: Deep learning of invariant Spatio-Temporal Features from Video. In: NIPS Workshop on Deep Learning and Unsupervised Feature Learning (2010)"},{"issue":"1","key":"33_CR34","doi-asserted-by":"publisher","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","volume":"35","author":"S Ji","year":"2013","unstructured":"Ji, S., Xu, W., Yang, M., Yu, K.: 3D Convolutional Neural Networks for Human Action Recognition. PAMI 35(1), 221\u2013231 (2013)","journal-title":"PAMI"},{"key":"33_CR35","unstructured":"Ngiam, J., Khosla, A., Kin, M., Nam, J., Lee, H., Ng, A.Y.: Multimodal deep learning. In: ICML (2011)"},{"key":"33_CR36","unstructured":"Srivastava, N., Salakhutdinov, R.: Multimodal learning with Deep Boltzmann Machines. In: NIPS (2013)"},{"key":"33_CR37","doi-asserted-by":"crossref","unstructured":"Neverova, N., Wolf, C., Paci, G., Sommavilla, G., Taylor, G.W., Nebout, F.: A multi-scale approach to gesture detection and recognition. In: ICCV Workshop on Understanding Human Activities: Context and Interactions (HACI) (2013)","DOI":"10.1109\/ICCVW.2013.69"},{"key":"33_CR38","doi-asserted-by":"crossref","unstructured":"Zanfir, M., Leordeanu, M., Sminchisescu, C.: The Moving Pose: An Efficient 3D Kinematics Descriptor for Low-Latency Action Recognition and Detection. In: ICCV (2013)","DOI":"10.1109\/ICCV.2013.342"},{"key":"33_CR39","doi-asserted-by":"crossref","unstructured":"Bengio, Y., Louradour, J., Collobert, R., Weston, J.: Curriculum learning. In: ICMlL (2009)","DOI":"10.1145\/1553374.1553380"},{"key":"33_CR40","doi-asserted-by":"crossref","unstructured":"Wu, D.: Deep Dynamic Neural Networks for Gesture Segmentation and Recognition. In: ECCV ChaLearn Workshop on Looking at People (2014)","DOI":"10.1007\/978-3-319-16178-5_39"},{"key":"33_CR41","doi-asserted-by":"crossref","unstructured":"Monnier, C., German, S., Ost, A.: A Multi-scale Boosted Detector for Efficient and Robust Gesture Recognition. In: ECCV ChaLearn Workshop on Looking at People (2014)","DOI":"10.1007\/978-3-319-16178-5_34"},{"key":"33_CR42","doi-asserted-by":"crossref","unstructured":"Camgoz, N.C., Kindiroglu, A.A., Akarun, L.: Gesture Recognition using Template Based Random Forest Classifiers. In: ECCV ChaLearn Workshop on Looking at People (2014)","DOI":"10.1007\/978-3-319-16178-5_41"},{"key":"33_CR43","doi-asserted-by":"crossref","unstructured":"Chang, J.Y.: Nonparametric Gesture Labeling from Multi-modal Data. In: ECCV ChaLearn Workshop on Looking at People (2014)","DOI":"10.1007\/978-3-319-16178-5_35"},{"key":"33_CR44","doi-asserted-by":"crossref","unstructured":"Evangelidis, G., Singh, G., Horaud, R.: Continuous gesture recognition from articulated poses. In: ECCV ChaLearn Workshop on Looking at People (2014)","DOI":"10.1007\/978-3-319-16178-5_42"},{"key":"33_CR45","doi-asserted-by":"crossref","unstructured":"Peng, X., Wang, L., Cai, Z.: Action and Gesture Temporal Spotting with Super Vector Representation. In: ECCV ChaLearn Workshop on Looking at People (2014)","DOI":"10.1007\/978-3-319-16178-5_36"},{"key":"33_CR46","doi-asserted-by":"crossref","unstructured":"Pigou, L., Dieleman, S., Kindermans, P.J.: Sign Language Recognition Using Convolutional Neural Networks. In: ECCV ChaLearn Workshop on Looking at People (2014)","DOI":"10.1007\/978-3-319-16178-5_40"},{"key":"33_CR47","doi-asserted-by":"crossref","unstructured":"Chen, G., Clarke, D., Giuliani, M., Weikersdorfer, D., Knoll, A.: Multi-modality Gesture Detection and Recognition With Un-supervision, Randomization and Discrimination. In: ECCV ChaLearn Workshop on Looking at People (2014)","DOI":"10.1007\/978-3-319-16178-5_43"},{"key":"33_CR48","unstructured":"Dalal, N., Triggs, B.: Histograms of Oriented Gradients for Human Detection. In: CVPR (2005)"},{"key":"33_CR49","unstructured":"Lazebnik, S., Schmid, C., Ponce, J.: Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories. In: CVPR (2006)"},{"issue":"1","key":"33_CR50","doi-asserted-by":"publisher","first-page":"3","DOI":"10.1007\/s10994-006-6226-1","volume":"63","author":"P Geurts","year":"2006","unstructured":"Geurts, P., Ernst, D., Wehenkel, L.: Extremely randomized trees. Machine Learning 63(1), 3\u201342 (2006)","journal-title":"Machine Learning"},{"key":"33_CR51","unstructured":"Breiman, L., Friedman, J., Stone, C.J., Olshen, R.A.: Classification and regression trees (1984)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision - ECCV 2014 Workshops"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-16178-5_33","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,21]],"date-time":"2025-05-21T02:42:17Z","timestamp":1747795337000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-16178-5_33"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015]]},"ISBN":["9783319161778","9783319161785"],"references-count":51,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-16178-5_33","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2015]]},"assertion":[{"value":"19 March 2015","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}}]}}