{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,31]],"date-time":"2025-12-31T00:54:54Z","timestamp":1767142494234,"version":"build-2238731810"},"reference-count":50,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2014,9,9]],"date-time":"2014-09-09T00:00:00Z","timestamp":1410220800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2015,3]]},"DOI":"10.1007\/s11263-014-0758-9","type":"journal-article","created":{"date-parts":[[2014,9,8]],"date-time":"2014-09-08T00:20:01Z","timestamp":1410135601000},"page":"90-114","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":41,"title":["Continuous Action Recognition Based on Sequence Alignment"],"prefix":"10.1007","volume":"112","author":[{"given":"Kaustubh","family":"Kulkarni","sequence":"first","affiliation":[]},{"given":"Georgios","family":"Evangelidis","sequence":"additional","affiliation":[]},{"given":"Jan","family":"Cech","sequence":"additional","affiliation":[]},{"given":"Radu","family":"Horaud","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2014,9,9]]},"reference":[{"issue":"1\u20132","key":"758_CR1","doi-asserted-by":"crossref","first-page":"79","DOI":"10.1007\/s12193-012-0111-y","volume":"7","author":"X Alameda-Pineda","year":"2013","unstructured":"Alameda-Pineda, X., Sanchez-Riera, J., Wienke, J., Franc, V., Cech, J., Kulkarni, K., et al. (2013). RAVEL: An annotated corpus for training robots with audiovisual abilities. Journal on Multimodal User Interfaces, 7(1\u20132), 79\u201391.","journal-title":"Journal on Multimodal User Interfaces"},{"issue":"9","key":"758_CR2","doi-asserted-by":"crossref","first-page":"1685","DOI":"10.1109\/TPAMI.2008.203","volume":"31","author":"J Alon","year":"2009","unstructured":"Alon, J., Athitsos, V., Yuan, Q., & Sclaroff, S. (2009). A unified framework for gesture recognition and spatiotemporal gesture segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(9), 1685\u20131699.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"758_CR3","doi-asserted-by":"crossref","first-page":"285","DOI":"10.1007\/978-3-540-75703-0_20","volume-title":"Human motion-understanding, modeling, capture and animation","author":"J Blackburn","year":"2007","unstructured":"Blackburn, J., & Ribeiro, E. (2007). Human motion recognition using isomap and dynamic time warping. Human motion-understanding, modeling, capture and animation (pp. 285\u2013298). Berlin: Springer."},{"key":"758_CR4","doi-asserted-by":"crossref","DOI":"10.1017\/CBO9780511804441","volume-title":"Convex Optimization","author":"S Boyd","year":"2004","unstructured":"Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. New York, NY: Cambridge University Press."},{"key":"758_CR5","doi-asserted-by":"crossref","first-page":"721","DOI":"10.1007\/978-3-642-15552-9_52","volume-title":"Computer Vision-ECCV 2010","author":"W Brendel","year":"2010","unstructured":"Brendel, W., & Todorovic, S. (2010). Activities as time series of human postures. In N. Paragios (Ed.), Computer Vision-ECCV 2010 (pp. 721\u2013734). Berlin: Springer."},{"issue":"1","key":"758_CR6","doi-asserted-by":"crossref","first-page":"129","DOI":"10.1137\/S003614450037906X","volume":"43","author":"SS Chen","year":"2001","unstructured":"Chen, S. S., Donoho, D. L., & Saunders, M. A. (2001). Atomic decomposition by basis pursuit. SIAM Rev, 43(1), 129\u2013159.","journal-title":"SIAM Rev"},{"key":"758_CR7","unstructured":"Csurka, G., Dance, C. R., Fan, L., Willamowski, J., & Bray, C. (2004). Visual categorization with bags of keypoints. In ECCV Workshop on Statistical Learning in Computer Vision."},{"key":"758_CR8","doi-asserted-by":"crossref","unstructured":"Escalera, S., Gonz\u00e0lez, J., Bar\u00f3, X., Reyes, M., Lopes, O., Guyon, I., Athitsos, V., & Escalante, H. J. (2013). Multi-modal gesture recognition challenge 2013: Dataset and results. In ChaLearn Multi-modal Gesture Recognition Grand Challenge and Workshop, 15th ACM International Conference on Multimodal Interaction.","DOI":"10.1145\/2522848.2532595"},{"issue":"10","key":"758_CR9","doi-asserted-by":"crossref","first-page":"1858","DOI":"10.1109\/TPAMI.2008.113","volume":"30","author":"GD Evangelidis","year":"2008","unstructured":"Evangelidis, G. D., & Psarakis, E. Z. (2008). Parametric image alignment using enhanced correlation coefficient maximization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 30(10), 1858\u20131865.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"3","key":"758_CR10","doi-asserted-by":"crossref","first-page":"195","DOI":"10.1561\/2000000004","volume":"1","author":"M Gales","year":"2008","unstructured":"Gales, M., & Young, S. (2008). The application of hidden Markov models in speech recognition. Foundations and Trends in Signal Processing, 1(3), 195\u2013304.","journal-title":"Foundations and Trends in Signal Processing"},{"issue":"10","key":"758_CR11","doi-asserted-by":"crossref","first-page":"4595","DOI":"10.1109\/TSP.2011.2161292","volume":"59","author":"PR Gill","year":"2011","unstructured":"Gill, P. R., Wang, A., & Molnar, A. (2011). The in-crowd algorithm for fast basis pursuit denoising. IEEE Transactions on Signal Processing, 59(10), 4595\u20134605.","journal-title":"IEEE Transactions on Signal Processing"},{"key":"758_CR12","doi-asserted-by":"crossref","unstructured":"Gong, D., & Medioni, G. (2011) Dynamic manifold warping for view invariant action recognition. In IEEE International Conference on Computer Vision, (pp. 571\u2013578). IEEE.","DOI":"10.1109\/ICCV.2011.6126290"},{"key":"758_CR13","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"crossref","first-page":"185","DOI":"10.1007\/3-540-46616-9_17","volume-title":"Gesture-based communication in human-computer interaction","author":"H Hienz","year":"1999","unstructured":"Hienz, H., Bauer, B., & Kraiss, K. F. (1999). HMM-based continuous sign language recognition using stochastic grammars. In A. Braffort, R. Gherbi, S. Gibet, D. Teil, & J. Richardson (Eds.), Gesture-based communication in human-computer interaction (Vol. 1739, pp. 185\u2013196)., Lecture Notes in Computer Science Berlin: Springer."},{"key":"758_CR14","doi-asserted-by":"crossref","unstructured":"Hoai, M., Lan, Z. Z., & De la Torre, F. (2011). Joint segmentation and classification of human actions in video. In 2011 IEEE Conference on Computer Vision and Pattern Recognition CVPR. (pp. 3265\u20133272). IEEE.","DOI":"10.1109\/CVPR.2011.5995470"},{"issue":"10","key":"758_CR15","doi-asserted-by":"crossref","first-page":"1515","DOI":"10.1016\/j.imavis.2009.02.002","volume":"27","author":"N Ikizler","year":"2009","unstructured":"Ikizler, N., & Duygulu, P. (2009). Histogram of oriented rectangles: A new pose descriptor for human action recognition. Image and Vision Computing, 27(10), 1515\u20131526.","journal-title":"Image and Vision Computing"},{"key":"758_CR16","doi-asserted-by":"crossref","unstructured":"Jain, M., J\u00e9gou, H., & Bouth\u00e9my, P. (2013). Better exploiting motion for better action recognition. In Computer Vision and Pattern Recognition, (pp. 2555\u20132562). IEEE.","DOI":"10.1109\/CVPR.2013.330"},{"key":"758_CR17","unstructured":"Jiang, Y. G., Dai, Q., Xue, X., Liu, W., & Ngo, C. W. (2012). Trajectory-based modeling of human actions with motion reference points. In European Conference on Computer Vision, (pp. 425\u2013438). Berlin :Springer."},{"key":"758_CR18","unstructured":"Kulkarni, K., Cherla, S., Kale, A., & Ramasubramanian, V. (2008). A framework for indexing human actions in video. In The 1st International Workshop on Machine Learning for Vision-based Motion Analysis-MLVMA\u201908."},{"key":"758_CR19","doi-asserted-by":"crossref","unstructured":"Laptev, I., Marszalek, M., Schmid, C., & Rozenfeld, B. (2008) Learning realistic human actions from movies. In IEEE Conference on Computer Vision and Pattern Recognition, 2008. CVPR 2008, (pp. 1\u20138). IEEE.","DOI":"10.1109\/CVPR.2008.4587756"},{"issue":"11","key":"758_CR20","doi-asserted-by":"crossref","first-page":"1649","DOI":"10.1109\/29.46547","volume":"37","author":"C Lee","year":"1989","unstructured":"Lee, C., & Rabiner, L. (1989). A frame-synchronous network search algorithm for connected word recognition. IEEE Transactions on Acoustics, Speech and Signal Processing, 37(11), 1649\u20131658.","journal-title":"IEEE Transactions on Acoustics, Speech and Signal Processing"},{"key":"758_CR21","doi-asserted-by":"crossref","unstructured":"Liang, R., & Ouhyoung, M. (1998). A real-time continuous gesture recognition system for sign language. In Third IEEE International Conference on Automatic Face and Gesture Recognition, 1998, (pp. 558\u2013567). IEEE.","DOI":"10.1109\/AFGR.1998.671007"},{"key":"758_CR22","unstructured":"Lv, F., & Nevatia, R. (2006). Recognition and segmentation of 3-d human action using HMM and multi-class AdaBoost. In European Conference on Computer Vision, (pp. 359\u2013372). Berlin: Springer."},{"key":"758_CR23","doi-asserted-by":"crossref","unstructured":"Lv, F., & Nevatia, R. (2007). Single view human action recognition using key pose matching and Viterbi path searching. In Computer Vision and Pattern Recognition, 2007. CVPR\u201907, (pp. 1\u20138). IEEE.","DOI":"10.1109\/CVPR.2007.383131"},{"key":"758_CR24","doi-asserted-by":"crossref","DOI":"10.1017\/CBO9780511809071","volume-title":"Introduction to information retrieval","author":"C Manning","year":"2008","unstructured":"Manning, C., Raghavan, P., & Sch\u00fctze, H. (2008). Introduction to information retrieval. Cambridge: Cambridge University Press."},{"key":"758_CR25","doi-asserted-by":"crossref","unstructured":"Marszalek, M., Laptev, I., & Schmid, C. (2009) Actions in context. In IEEE Conference on Computer Vision and Pattern Recognition, (pp. 2929\u20132936). IEEE.","DOI":"10.1109\/CVPR.2009.5206557"},{"key":"758_CR26","doi-asserted-by":"crossref","unstructured":"Morency, L., Quattoni, A., & Darrell, T. (2007). Latent-dynamic discriminative models for continuous gesture recognition. In Computer Vision and Pattern Recognition, (pp. 1\u20138). IEEE.","DOI":"10.1109\/CVPR.2007.383299"},{"key":"758_CR27","doi-asserted-by":"crossref","first-page":"69","DOI":"10.1007\/978-3-540-74048-3_4","volume-title":"Information retrieval for music and motion","author":"M Mueller","year":"2007","unstructured":"Mueller, M. (2007). Dynamic time warping. Information retrieval for music and motion (pp. 69\u201384). Berlin: Springer."},{"issue":"2","key":"758_CR28","doi-asserted-by":"crossref","first-page":"263","DOI":"10.1109\/TASSP.1984.1164320","volume":"32","author":"H Ney","year":"1984","unstructured":"Ney, H. (1984). The use of a one-stage dynamic programming algorithm for connected word recognition. IEEE Transactions on Acoustics, Speech and Signal Processing, 32(2), 263\u2013271.","journal-title":"IEEE Transactions on Acoustics, Speech and Signal Processing"},{"issue":"5","key":"758_CR29","doi-asserted-by":"crossref","first-page":"64","DOI":"10.1109\/79.790984","volume":"16","author":"H Ney","year":"1999","unstructured":"Ney, H., & Ortmanns, S. (1999). Dynamic programming search for continuous speech recognition. IEEE Signal Processing Magazine, 16(5), 64\u201383.","journal-title":"IEEE Signal Processing Magazine"},{"key":"758_CR30","doi-asserted-by":"crossref","unstructured":"Ning, H., Xu, W., Gong, Y., Huang, T. (2008). Latent pose estimator for continuous action recognition. In European Conference on Computer Vision, (pp. 419\u2013433). Springer.","DOI":"10.1007\/978-3-540-88688-4_31"},{"key":"758_CR31","volume-title":"Fundamentals of speech recognition","author":"L Rabiner","year":"1993","unstructured":"Rabiner, L., & Juang, B. (1993). Fundamentals of speech recognition. Salt Lake: Prentice hall."},{"issue":"6","key":"758_CR32","doi-asserted-by":"crossref","first-page":"588","DOI":"10.1109\/TASSP.1979.1163310","volume":"27","author":"H Sakoe","year":"1979","unstructured":"Sakoe, H. (1979). Two-level DP-matching - a dynamic programming-based pattern matching algorithm for connected word recognition. IEEE Transactions on Acoustic, Speech, and Signal Processing, 27(6), 588\u2013595.","journal-title":"IEEE Transactions on Acoustic, Speech, and Signal Processing"},{"key":"758_CR33","unstructured":"Sanchez-Riera, J., Cech, J., Horaud, R. P. (2012). Action recognition robust to background clutter by using stereo vision. In The Fourth International Workshop on Video Event Categorization, Tagging and Retrieval, LNCS: Springer."},{"issue":"1","key":"758_CR34","doi-asserted-by":"crossref","first-page":"22","DOI":"10.1007\/s11263-010-0384-0","volume":"93","author":"Q Shi","year":"2011","unstructured":"Shi, Q., Wang, L., Cheng, L., & Smola, A. (2011). Discriminative human action segmentation and recognition using SMMs. IJCV, 93(1), 22\u201332.","journal-title":"IJCV"},{"issue":"1","key":"758_CR35","doi-asserted-by":"crossref","first-page":"4","DOI":"10.1007\/s11263-009-0273-6","volume":"87","author":"L Sigal","year":"2010","unstructured":"Sigal, L., Balan, A., & Black, M. (2010). Humaneva: Synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion. International Journal of Computer Vision, 87(1), 4\u201327.","journal-title":"International Journal of Computer Vision"},{"issue":"4","key":"758_CR36","doi-asserted-by":"crossref","first-page":"591","DOI":"10.1109\/TPAMI.2008.111","volume":"31","author":"J Sivic","year":"2009","unstructured":"Sivic, J., & Zisserman, A. (2009). Efficient visual search of videos cast as text retrieval. IEEE Transactions on PAMI, 31(4), 591\u2013606.","journal-title":"IEEE Transactions on PAMI"},{"issue":"2\u20133","key":"758_CR37","first-page":"210","volume":"104","author":"C Sminchisescu","year":"2006","unstructured":"Sminchisescu, C., Kanaujia, A., & Metaxas, D. N. (2006). Conditional models for contextual human motion recognition. CVIU, 104(2\u20133), 210\u2013220.","journal-title":"CVIU"},{"issue":"7","key":"758_CR38","doi-asserted-by":"crossref","first-page":"1473","DOI":"10.1007\/s00138-012-0449-x","volume":"24","author":"B Solmaz","year":"2013","unstructured":"Solmaz, B., Assari, S. M., & Shah, M. (2013). Classifying web videos using a global video descriptor. Machine vision and applications, 24(7), 1473\u20131485.","journal-title":"Machine vision and applications"},{"issue":"12","key":"758_CR39","doi-asserted-by":"crossref","first-page":"1371","DOI":"10.1109\/34.735811","volume":"20","author":"T Starner","year":"1998","unstructured":"Starner, T., Weaver, J., & Pentland, A. (1998). Real-time american sign language recognition using desk and wearable computer based video. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(12), 1371\u20131375.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"12","key":"758_CR40","doi-asserted-by":"crossref","first-page":"4655","DOI":"10.1109\/TIT.2007.909108","volume":"53","author":"JA Tropp","year":"2007","unstructured":"Tropp, J. A., & Gilbert, A. C. (2007). Signal recovery from random measurements via orthogonal matching pursuit. IEEE Transactions on Information Theory, 53(12), 4655\u20134666.","journal-title":"IEEE Transactions on Information Theory"},{"key":"758_CR41","doi-asserted-by":"crossref","unstructured":"Ullah, M. M., Parizi, S. N,, Laptev, I. (2010). Improving bag-of-features action recognition with non-local cues. In British Machine Vision Conference. (Vol. 10, pp. 95\u2013101).","DOI":"10.5244\/C.24.95"},{"key":"758_CR42","doi-asserted-by":"crossref","unstructured":"Vail, D., Veloso, M., & Lafferty, J. (2007). Conditional random fields for activity recognition. In Proceedings of the 6th International Joint Conference on Autonomous Agents and Multiagent Systems, (p. 235). ACM.","DOI":"10.1145\/1329125.1329409"},{"key":"758_CR43","unstructured":"Vintsyuk, T. (1971). Element-wise recognition of continuous speech composed of words from a specified dictionary. Cybernetics and Systems Analysis, 7(2), 361\u2013372."},{"key":"758_CR44","doi-asserted-by":"crossref","unstructured":"Vogler, C., & Metaxas, D. (1998). ASL recognition based on a coupling between HMMs and 3D motion analysis. In Sixth International Conference on Computer Vision, (pp. 363\u2013369).","DOI":"10.1109\/ICCV.1998.710744"},{"issue":"3","key":"758_CR45","doi-asserted-by":"crossref","first-page":"358","DOI":"10.1006\/cviu.2000.0895","volume":"81","author":"C Vogler","year":"2001","unstructured":"Vogler, C., & Metaxas, D. (2001). A framework for recognizing the simultaneous aspects of american sign language. Computer Vision and Image Understanding, 81(3), 358\u2013384.","journal-title":"Computer Vision and Image Understanding"},{"key":"758_CR46","doi-asserted-by":"crossref","unstructured":"Wang, H., & Schmid, C. (2013). Action recognition with improved trajectories. In International Conference on Computer Vision, (pp. 3551\u20133558). IEEE.","DOI":"10.1109\/ICCV.2013.441"},{"key":"758_CR47","unstructured":"Young, S., Russell, N. H., & Thornton, J. (1989). Token passing: a simple conceptual model for connected speech recognition systems. Technical Report 38, University of Cambridge, Department of Engineering."},{"key":"758_CR48","unstructured":"Young, S., Woodland, P., & Byrne, W. (1993). HTK: Hidden Markov model toolkit v1. 5. Technical Report, University of Cambridge, Department of Engineering."},{"key":"758_CR49","unstructured":"Young, S., Evermann, G., Kershaw, D., Moore, G., Odell, J., Ollason, D., et al. (2009). The HTK book. Technical Report: University of Cambridge, Department of Engineering."},{"key":"758_CR50","unstructured":"Zhou, F., & la Torre, F. D. (2009). Canonical time warping for alignment of human behavior. In Advances in Neural Information Processing Systems, (pp. 2286\u20132294)."}],"updated-by":[{"DOI":"10.1007\/s11263-014-0782-9","type":"correction","label":"Correction","source":"publisher","updated":{"date-parts":[[2014,11,18]],"date-time":"2014-11-18T00:00:00Z","timestamp":1416268800000}}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-014-0758-9.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11263-014-0758-9\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-014-0758-9","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,8,14]],"date-time":"2019-08-14T15:14:12Z","timestamp":1565795652000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11263-014-0758-9"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2014,9,9]]},"references-count":50,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2015,3]]}},"alternative-id":["758"],"URL":"https:\/\/doi.org\/10.1007\/s11263-014-0758-9","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2014,9,9]]}}}