{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,9,9]],"date-time":"2024-09-09T11:49:07Z","timestamp":1725882547245},"publisher-location":"Cham","reference-count":34,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783319545257"},{"type":"electronic","value":"9783319545264"}],"license":[{"start":{"date-parts":[[2017,1,1]],"date-time":"2017-01-01T00:00:00Z","timestamp":1483228800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2017]]},"DOI":"10.1007\/978-3-319-54526-4_21","type":"book-chapter","created":{"date-parts":[[2017,3,15]],"date-time":"2017-03-15T07:13:16Z","timestamp":1489561996000},"page":"273-285","source":"Crossref","is-referenced-by-count":1,"title":["Multi-cue Information Fusion for Two-Layer Activity Recognition"],"prefix":"10.1007","author":[{"given":"Yanli","family":"Ji","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiaming","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hong","family":"Cheng","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xing","family":"Xu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jingkuan","family":"Song","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2017,3,16]]},"reference":[{"key":"21_CR1","doi-asserted-by":"crossref","first-page":"976","DOI":"10.1016\/j.imavis.2009.11.014","volume":"28","author":"R Poppe","year":"2010","unstructured":"Poppe, R.: A survey on vision-based human action recognition. Image Vis. Comput. 28, 976\u2013990 (2010)","journal-title":"Image Vis. Comput."},{"issue":"6","key":"21_CR2","doi-asserted-by":"crossref","first-page":"633","DOI":"10.1016\/j.cviu.2013.01.013","volume":"117","author":"JM Chaquet","year":"2013","unstructured":"Chaquet, J.M., Carmona, E.J., Fernndez-Caballero, A.: A survey of video datasets for human action and activity recognition. Comput. Vis. Image Underst. 117(6), 633\u2013659 (2013)","journal-title":"Comput. Vis. Image Underst."},{"key":"21_CR3","doi-asserted-by":"crossref","unstructured":"Grushin, A., Monner, D., Reggia, J., Mishra, A.: Robust human action recognition via long short-term memory. In: Proceedings of International Joint Conference on Neural Networks (IJCNN) (2013)","DOI":"10.1109\/IJCNN.2013.6706797"},{"key":"21_CR4","doi-asserted-by":"crossref","unstructured":"Donahue, J., Hendricks, A.L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., Darrell, T.: Long-term recurrent convolutional networks for visual recognition and description. In: Proceedings of CVPR (2015)","DOI":"10.1109\/CVPR.2015.7298878"},{"key":"21_CR5","doi-asserted-by":"crossref","first-page":"209","DOI":"10.1007\/978-3-319-24947-6_17","volume":"9358","author":"A Rohrbach","year":"2015","unstructured":"Rohrbach, A., Rohrbach, M., Schiele, B.: The long-short story of movie description. Pattern Recognit. 9358, 209\u2013221 (2015)","journal-title":"Pattern Recognit."},{"key":"21_CR6","doi-asserted-by":"crossref","unstructured":"Mahasseni, B., Todorovic, S.: Regularizing long short term memory with 3D human-skeleton sequences for action recognition. In: Proceedings of CVPR (2016)","DOI":"10.1109\/CVPR.2016.333"},{"key":"21_CR7","doi-asserted-by":"crossref","first-page":"1691","DOI":"10.1109\/TPAMI.2012.67","volume":"34","author":"B Yao","year":"2012","unstructured":"Yao, B., Fei-Fei, L.: Recognizing human-object interactions in still images by modeling the mutual context of objects and human poses. IEEE Trans. Pattern Anal. Mach. Intell. Arch. 34, 1691\u20131703 (2012)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell. Arch."},{"key":"21_CR8","doi-asserted-by":"crossref","unstructured":"Baldassano, C., Beck, D.M., Fei-Fei, L.: Human-object interactions are more than the sum of their parts. Cerebral Cortex 1\u201313 (2016)","DOI":"10.1093\/cercor\/bhw077"},{"key":"21_CR9","doi-asserted-by":"crossref","unstructured":"Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A.C., Fei-Fei, L.: Imagenet large scale visual recognition challenge. In: arXiv:1409.0575v3 (2015)","DOI":"10.1007\/s11263-015-0816-y"},{"key":"21_CR10","doi-asserted-by":"crossref","first-page":"67","DOI":"10.1162\/tacl_a_00166","volume":"2","author":"P Young","year":"2014","unstructured":"Young, P., Lai, A., Hodosh, M., Hockenmaier, J.: From image descriptions to visual denotations: new similarity metrics for semantic inference over event descriptions. Trans. Assoc. Comput. Linguist. 2, 67\u201378 (2014)","journal-title":"Trans. Assoc. Comput. Linguist."},{"key":"21_CR11","first-page":"2949","volume":"15","author":"N Srivastava","year":"2014","unstructured":"Srivastava, N., Salakhutdinov, R.: Multimodal learning with deep boltzmann machines. J. Mach. Learn. Res. 15, 2949\u20132980 (2014)","journal-title":"J. Mach. Learn. Res."},{"key":"21_CR12","doi-asserted-by":"crossref","unstructured":"Venugopalan, S., Rohrbach, M., Donahue, J., Mooney, R., Darrell, T., Saenko, K.: Sequence to sequence-video to text. In: Proceedings of ICCV (2015)","DOI":"10.1109\/ICCV.2015.515"},{"key":"21_CR13","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1109\/JSEN.2016.2616227","volume":"16","author":"FJ Ordnez","year":"2016","unstructured":"Ordnez, F.J., Roggen, D.: Deep convolutional and lstm recurrent neural networks for multimodal wearable activity recognition. Sensors 16, 1\u201325 (2016)","journal-title":"Sensors"},{"key":"21_CR14","unstructured":"Wu, Z., Jiang, Y., Wang, X., Ye, H., Xue, X., Wang, J.: Fusing multi-stream deep networks for video classification. In: arXiv:1509.06086 (2015)"},{"key":"21_CR15","unstructured":"Ng, J.Y., Hausknecht, M., Vijayanarasimhan, S.: Beyond short snippets: deep networks for video classification. In: Proceedings of CVPR (2015)"},{"key":"21_CR16","doi-asserted-by":"crossref","unstructured":"Zhu, W., Lan, C., Xing, J., Zeng, W., Li, Y., Shen, L., Xie, X.: Co-occurrence feature learning for skeleton based action recognition using regularized deep LSTM networks. In: Proceedings of AAAI (2016)","DOI":"10.1609\/aaai.v30i1.10451"},{"key":"21_CR17","doi-asserted-by":"crossref","unstructured":"Ibrahim, M.S., Muralidharan, S., Deng, Z., Vahdat, A., Mori, G.: A hierarchical deep temporal model for group activity recognition. In: Proceedings of CVPR (2016)","DOI":"10.1109\/CVPR.2016.217"},{"key":"21_CR18","unstructured":"Du, Y., Wang, W., Wang, L.: Hierarchical recurrent neural network for skeleton based action recognition. In: Proceedings of CVPR (2015)"},{"key":"21_CR19","doi-asserted-by":"crossref","first-page":"233","DOI":"10.1007\/s11263-014-0723-7","volume":"109","author":"AJ Ma","year":"2014","unstructured":"Ma, A.J., Yuen, P.C.: Reduced analytic dependency modeling: robust fusion for visual recognition. Int. J. Comput. Vis. 109, 233\u2013251 (2014)","journal-title":"Int. J. Comput. Vis."},{"key":"21_CR20","doi-asserted-by":"crossref","unstructured":"Liu, D., Lai, K., Ye, G., Chen, M., Chang, S.: Sample-specific late fusion for visual category recognition. In: Proceedings of CVPR (2013)","DOI":"10.1109\/CVPR.2013.109"},{"key":"21_CR21","unstructured":"Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: Proceedings of NIPS (2012)"},{"key":"21_CR22","volume-title":"Beyond Pixels: Exploring New Representations and Applications for Motion Analysis","author":"C Liu","year":"2009","unstructured":"Liu, C.: Beyond Pixels: Exploring New Representations and Applications for Motion Analysis. Massachusetts Institute of Technology, Massachusetts (2009)"},{"key":"21_CR23","doi-asserted-by":"crossref","unstructured":"Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of CVPR (2014)","DOI":"10.1109\/CVPR.2014.81"},{"key":"21_CR24","doi-asserted-by":"crossref","unstructured":"Cheng, M., Zhang, Z., Torr, P.: BING: binarized normed gradients for objectness estimation at 300fps. In: Proceedings of CVPR (2014)","DOI":"10.1109\/CVPR.2014.414"},{"key":"21_CR25","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: arXiv:1512.03385 (2015)","DOI":"10.1109\/CVPR.2016.90"},{"key":"21_CR26","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: Proceedings of ICLR (2015)"},{"key":"21_CR27","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Er-han, D., Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions. In: Proceedings of CVPR (2015)","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"21_CR28","doi-asserted-by":"crossref","unstructured":"Jiang, Y., Ye, G., Chang, S., Ellis, D., Loui, A.: Consumer video understanding: a benchmark database and an evaluation of human and machine performance. In: Proceedings of ACM ICMR (2011)","DOI":"10.1145\/1991996.1992025"},{"key":"21_CR29","unstructured":"Soomro, K., Zamir, A., Shah, M.: Ucf101: a dataset of 101 human actions classes from videos in the wild. In: CRCV-TR-12-01 (2012)"},{"key":"21_CR30","doi-asserted-by":"crossref","unstructured":"Xu, Z., Yang, Y., Tsang, I., Sebe, N., Hauptmann, A.: Feature weighting via optimal thresholding for video analysis. In: Proceedings of ICCV (2013)","DOI":"10.1109\/ICCV.2013.427"},{"key":"21_CR31","doi-asserted-by":"crossref","first-page":"33","DOI":"10.1007\/s00138-013-0567-0","volume":"25","author":"I Jhuo","year":"2014","unstructured":"Jhuo, I., Ye, G., Gao, S., Liu, D., Jiang, Y., Lee, D., Chang, S.: Discovering joint audio-visual codewords for video event detection. Mach. Vis. Appl. 25, 33\u201347 (2014)","journal-title":"Mach. Vis. Appl."},{"key":"21_CR32","unstructured":"Srivastava, N., Mansimov, E., Salakhutdinov, R.: Unsupervised learning of video representations using LSTMs. In: CoRR (2015)"},{"key":"21_CR33","unstructured":"Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recognition in videos. In: Proceedings of NIPS (2014)"},{"key":"21_CR34","unstructured":"Lan, Z., Lin, M., Li, X., Hauptmann, A.G., Raj, B.: Beyond gaussian pyramid: multi-skip feature stacking for action recognition. In: CoRR (2014)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ACCV 2016 Workshops"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-54526-4_21","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,26]],"date-time":"2022-07-26T06:06:16Z","timestamp":1658815576000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-54526-4_21"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017]]},"ISBN":["9783319545257","9783319545264"],"references-count":34,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-54526-4_21","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2017]]}}}