{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,6]],"date-time":"2026-06-06T06:22:05Z","timestamp":1780726925082,"version":"3.54.1"},"reference-count":113,"publisher":"Springer Science and Business Media LLC","issue":"16","license":[{"start":{"date-parts":[[2017,12,9]],"date-time":"2017-12-09T00:00:00Z","timestamp":1512777600000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100002713","name":"Al Imam Mohammad Ibn Saud Islamic University","doi-asserted-by":"crossref","award":["3534534"],"award-info":[{"award-number":["3534534"]}],"id":[{"id":"10.13039\/501100002713","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2018,8]]},"DOI":"10.1007\/s11042-017-5438-7","type":"journal-article","created":{"date-parts":[[2017,12,8]],"date-time":"2017-12-08T21:45:22Z","timestamp":1512769522000},"page":"20415-20453","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":60,"title":["Video scene analysis: an overview and challenges on deep learning algorithms"],"prefix":"10.1007","volume":"77","author":[{"given":"Qaisar","family":"Abbas","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Mostafa E. A.","family":"Ibrahim","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"M. Arfan","family":"Jaffar","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2017,12,9]]},"reference":[{"issue":"11","key":"5438_CR1","doi-asserted-by":"publisher","first-page":"1949","DOI":"10.1109\/TMM.2015.2477680","volume":"17","author":"AH Abdulnabi","year":"2015","unstructured":"Abdulnabi AH, Wang G, Lu J, Jia K (2015) Multi-task CNN model for attribute prediction. IEEE Trans Multimedia 17(11):1949\u20131959. https:\/\/doi.org\/10.1109\/TMM.2015.2477680","journal-title":"IEEE Trans Multimedia"},{"key":"5438_CR2","doi-asserted-by":"publisher","unstructured":"Acar E, Hopfgartner F, Albayrak S (2016) A comprehensive study on mid-level representation and ensemble learning for emotional analysis of video material. J Multimedia Tools Appl 76(9):11809\u201311837. https:\/\/doi.org\/10.1007\/s11042-016-3618-5","DOI":"10.1007\/s11042-016-3618-5"},{"key":"5438_CR3","unstructured":"Ba J, Mnih V, Kavukcuoglu K (2015) Multiple object recognition with visual attention. In: Proceedings of Int Conf on Learning Representations (ICLR'15). San Diego, California, USA"},{"key":"5438_CR4","unstructured":"Baccouche M, Mamalet F, Wolf C, Garcia C, Baskurt A (2012) Sparse shift-invariant representation of local 2D patterns and sequence learning for human action recognition. In: Proceedings of the 21st Int Conf on pattern recognition (ICPR'12), pp 3823\u20133826. doi:10.11385.6048"},{"issue":"4","key":"5438_CR5","doi-asserted-by":"publisher","first-page":"1234","DOI":"10.1109\/TMM.2012.2191268","volume":"14","author":"L Ballan","year":"2012","unstructured":"Ballan L, Bertini M, Bimbo AD, Seidenari L, Serra G (2012) Effective codebooks for human action representation and classification in unconstrained videos. IEEE Trans Multimedia 14(4):1234\u20131245. https:\/\/doi.org\/10.1109\/TMM.2012.2191268","journal-title":"IEEE Trans Multimedia"},{"key":"5438_CR6","unstructured":"Ballas N, Yao L, Pal C, Courville AC (2016) Delving deeper into convolutional networks for learning video representations. In: Proceedings of Int Conf on Learning Representations (ICLR'16), San Juan, Puerto Rico"},{"key":"5438_CR7","doi-asserted-by":"publisher","first-page":"140","DOI":"10.1016\/j.neunet.2015.09.009.","volume":"72","author":"P Barros","year":"2015","unstructured":"Barros P, Jirak D, Weber C, Wermter S (2015) Multimodal emotional state recognition using sequence dependent deep hierarchical features. J Neural Netw 72:140\u2013151. https:\/\/doi.org\/10.1016\/j.neunet.2015.09.009.","journal-title":"J Neural Netw"},{"key":"5438_CR8","first-page":"153","volume-title":"Proceedings of the 19th Int Conf on neural information processing systems (NIPS'06)","author":"Y Bengio","year":"2006","unstructured":"Bengio Y, Lamblin P, Popovici D, Larochelle H (2006) Greedy layer-wise training of deep networks. In: Proceedings of the 19th Int Conf on neural information processing systems (NIPS'06). MIT Press, Canada, pp 153\u2013160"},{"key":"5438_CR9","doi-asserted-by":"publisher","first-page":"505","DOI":"10.1007\/978-3-319-46493-0 31","volume-title":"Proceedings part IV of 14th European Conf computer vision (ECCV'16)","author":"C-S Chan","year":"2016","unstructured":"Chan C-S, Chen S-Z, Xie P-X, Chang C-C, Sun M (2016) Recognition from hand cameras: a revisit with deep learning. In: Proceedings part IV of 14th European Conf computer vision (ECCV'16). Springer Int Publishing, Amsterdam, The Netherlands, pp 505\u2013521. https:\/\/doi.org\/10.1007\/978-3-319-46493-0 31"},{"issue":"2","key":"5438_CR10","doi-asserted-by":"publisher","first-page":"337","DOI":"10.1007\/s10044-014-0404-8.","volume":"19","author":"K Charalampous","year":"2016","unstructured":"Charalampous K, Gasteratos A (2016) On-line deep learning method for action recognition. J of. Pattern Anal Applic 19(2):337\u2013354. https:\/\/doi.org\/10.1007\/s10044-014-0404-8.","journal-title":"Pattern Anal Applic"},{"key":"5438_CR11","unstructured":"Chen DL, Dolan WB (2011) Collecting highly parallel data for paraphrase evaluation. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL'11), Portland, OR, USA"},{"issue":"11","key":"5438_CR12","doi-asserted-by":"publisher","first-page":"1875","DOI":"10.1109\/TMM.2015.2477044","volume":"17","author":"K Cho","year":"2015","unstructured":"Cho K, Courville A, Bengio Y (2015) Describing multimedia content using attention-based encoder-decoder networks. IEEE Tran Multimedia 17(11):1875\u20131886. https:\/\/doi.org\/10.1109\/TMM.2015.2477044","journal-title":"IEEE Tran Multimedia"},{"key":"5438_CR13","unstructured":"Ciresan DC, Giusti A, Gambardella LM, Schmidhuber J (2012) Deep neural networks segment neuronal membranes in electron microscopy images. In: Proceedings of Conf on Neural Information Processing Systems, Lake Tahoe, Nevada, USA, pp. 2852\u20132860"},{"key":"5438_CR14","unstructured":"Couprie C, Farabet C, Najman L, LeCun Y (2013) Indoor semantic segmentation using depth information. In: Internatinal Conf on Learning Representation (ICLR'13), Scottsdale, AZ, USA, pages 8"},{"issue":"4","key":"5438_CR15","doi-asserted-by":"publisher","first-page":"743","DOI":"10.1109\/TPAMI.2011.155","volume":"34","author":"P Dollar","year":"2012","unstructured":"Dollar P, Wojek C, Schiele B, Perona P (2012) Pedestrian detection: an evaluation of the state of the art. IEEE Trans Pattern Anal Mach Intell 34(4):743\u2013761. https:\/\/doi.org\/10.1109\/TPAMI.2011.155","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"5438_CR16","first-page":"2625","volume-title":"Proceedings of IEEE Conf on computer vision and pattern recognition (CVPR'15)","author":"J Donahue","year":"2016","unstructured":"Donahue J, Hendricks LA, Guadarrama S, Rohrbach M, Venugopalan S, Saenko K, Darrell T (2016) Long-term recurrent convolutional networks for visual recognition and description. In: Proceedings of IEEE Conf on computer vision and pattern recognition (CVPR'15). MA, USA, Boston, pp 2625\u20132634"},{"key":"5438_CR17","doi-asserted-by":"publisher","unstructured":"Etezadifar P, Farsi H (2016) Scalable video summarization via sparse dictionary learning and selection simultaneously. J Multimedia Tools Appl 76(6):7947\u20137971. https:\/\/doi.org\/10.1007\/s11042-016-3433-z","DOI":"10.1007\/s11042-016-3433-z"},{"issue":"5","key":"5438_CR18","doi-asserted-by":"crossref","first-page":"503","DOI":"10.1002\/wcs.127","volume":"2","author":"KK Evans","year":"2011","unstructured":"Evans KK, Horowitz TS, Howe P, Pedersini R, Reijnen E, Pinto Y, Kuzmova Y, Wolfe JM (2011) Visual Attention. Wiley Interdiscip Rev Cogn Sci 2(5):503\u2013514","journal-title":"Wiley Interdiscip Rev Cogn Sci"},{"issue":"8","key":"5438_CR19","doi-asserted-by":"publisher","first-page":"1915","DOI":"10.1109\/TPAMI.2012.231","volume":"35","author":"C Farabet","year":"2013","unstructured":"Farabet C, Couprie C, Najman L, LeCun Y (2013) Learning hierarchical features for scene labeling. IEEE Trans Pattern Anal Mach Intell 35(8):1915\u20131929. https:\/\/doi.org\/10.1109\/TPAMI.2012.231","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"5438_CR20","doi-asserted-by":"crossref","unstructured":"Farrajota M, Rodrigues JMF, du Buf, JMH (2016) A Deep Neural Network Video Framework for Monitoring Elderly Persons. In: Proceedings Part II of 10th International Conference Universal Access in Human-Computer Interaction (UAHCI2016), pp. 370\u2013381, Toronto, ON, Canada, July 2016","DOI":"10.1007\/978-3-319-40244-4_36"},{"issue":"4","key":"5438_CR21","doi-asserted-by":"publisher","first-page":"193","DOI":"10.1007\/BF00344251","volume":"36","author":"K Fukushima","year":"1980","unstructured":"Fukushima K (1980) Neocognitron: a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. J of. Biol Cybern 36(4):193\u2013202. https:\/\/doi.org\/10.1007\/BF00344251","journal-title":"Biol Cybern"},{"key":"5438_CR22","doi-asserted-by":"publisher","unstructured":"Gao X, Zhang T (2015) Unsupervised learning to detect loops using deep neural networks for visual SLAM system. J of. Auton Robot 41(1):1\u20138. https:\/\/doi.org\/10.1007\/s10514-015-9516-2","DOI":"10.1007\/s10514-015-9516-2"},{"key":"5438_CR23","doi-asserted-by":"publisher","unstructured":"Gilani SO, Jamil M, Fazal Z, Naveed MS, Sakina R (2016) Automated scene analysis by image feature extraction. In: Proceedings of IEEE 14th Intl Conf on Dependable, Autonomic and Secure. Computing:530\u2013536. https:\/\/doi.org\/10.1109\/DASC-PICom-DataCom-CyberSciTec.2016.102","DOI":"10.1109\/DASC-PICom-DataCom-CyberSciTec.2016.102"},{"key":"5438_CR24","doi-asserted-by":"publisher","unstructured":"Girshick R, Donahue J, Darrell T, Malik J (2014) Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE Conf on Computer Vision and Pattern Recognition (CVPR'14), IEEE computer society, Columbus, Ohio, USA, pp. 580\u2013587, doi: https:\/\/doi.org\/10.1109\/CVPR.2014.81","DOI":"10.1109\/CVPR.2014.81"},{"key":"5438_CR25","doi-asserted-by":"publisher","unstructured":"Graves A, Mohamed AR, Hinton G (2013) Speech recognition with deep recurrent neural networks. Proceedings of the IEEE Int Conf on Acoustics, Speech and Signal Processing:6645\u20136649. https:\/\/doi.org\/10.1109\/ICASSP.2013.6638947","DOI":"10.1109\/ICASSP.2013.6638947"},{"key":"5438_CR26","doi-asserted-by":"publisher","unstructured":"Guadarrama S, Krishnamoorthy N, Malkarnenkar G, Venugopalan S, Mooney R, Darrell T, Saenko K (2013) YouTube2Text: recognizing and describing arbitrary activities using semantic hierarchies and zero-shot recognition. In: Proceedings of IEEE Int Conf on computer vision (ICCV'13), pp. 2712\u20132719, doi: https:\/\/doi.org\/10.1109\/ICCV.2013.337","DOI":"10.1109\/ICCV.2013.337"},{"issue":"C","key":"5438_CR27","doi-asserted-by":"publisher","first-page":"27","DOI":"10.1016\/j.neucom.2015.09.116","volume":"187","author":"Y Guo","year":"2016","unstructured":"Guo Y, Liu Y, Oerlemans A, Lao S, Wu S, Lew MS (2016) Deep learning for visual understanding. J of Neurocomput 187(C):27\u201348. https:\/\/doi.org\/10.1016\/j.neucom.2015.09.116","journal-title":"J of Neurocomput"},{"issue":"11","key":"5438_CR28","doi-asserted-by":"publisher","first-page":"1909","DOI":"10.1109\/TMM.2015.2477242","volume":"17","author":"M Hasan","year":"2015","unstructured":"Hasan M, Roy-Chowdhury AK (2015) A continuous learning framework for activity recognition using deep hybrid feature models. IEEE Trans Multimedia 17(11):1909\u20131922. https:\/\/doi.org\/10.1109\/TMM.2015.2477242","journal-title":"IEEE Trans Multimedia"},{"key":"5438_CR29","doi-asserted-by":"publisher","unstructured":"He K, Zhang X, Ren S, Sun J (2015) Spatial pyramid pooling in deep convolutional networks for visual recognition. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 37(9):1904\u20131916. https:\/\/doi.org\/10.1109\/TPAMI.2015.2389824","DOI":"10.1109\/TPAMI.2015.2389824"},{"issue":"10","key":"5438_CR30","doi-asserted-by":"crossref","first-page":"428","DOI":"10.1016\/j.tics.2007.09.004","volume":"11","author":"GE Hinton","year":"2007","unstructured":"Hinton GE (2007) Learning multiple layers of representation. Trends Cogn Sci 11(10):428\u2013434","journal-title":"Trends Cogn Sci"},{"issue":"6","key":"5438_CR31","doi-asserted-by":"publisher","first-page":"82","DOI":"10.1109\/MSP.2012.2205597","volume":"29","author":"G Hinton","year":"2012","unstructured":"Hinton G, Deng L, Yu D, Dahl GE, Mohamed RA, Jaitly N, Senior A, Vanhoucke V, Nguyen P, Sainath TN, Kingsbury B (2012) Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups. IEEE Signal Proc. Magaz 29(6):82\u201397. https:\/\/doi.org\/10.1109\/MSP.2012.2205597","journal-title":"IEEE Signal Proc. Magaz"},{"key":"5438_CR32","doi-asserted-by":"publisher","unstructured":"Ho C-T, Lin Y-H, Wu J-L (2016) Emotion prediction from user-generated videos by emotion wheel guided deep learning. In: Proceedings of 23rd Int Conf on Neural Information Processing (ICONIP'16), springer Int publishing, Kyoto, Japan, pp. 3\u201312, doi: https:\/\/doi.org\/10.1007\/978-3-319-46687-3 1","DOI":"10.1007\/978-3-319-46687-3%201"},{"issue":"12","key":"5438_CR33","doi-asserted-by":"publisher","first-page":"5659","DOI":"10.1109\/TIP.2015.2487860","volume":"24","author":"C Hong","year":"2015","unstructured":"Hong C, Yu J, Wan J, Tao D, Wang M (2015) Multimodal deep autoencoder for human pose recovery. IEEE Trans Image Proc 24(12):5659\u20135670. https:\/\/doi.org\/10.1109\/TIP.2015.2487860","journal-title":"IEEE Trans Image Proc"},{"issue":"12","key":"5438_CR34","doi-asserted-by":"publisher","first-page":"5892","DOI":"10.1109\/TIP.2016.2613686","volume":"25","author":"S Huang","year":"2016","unstructured":"Huang S, Li X, Zhang Z, He Z, Wu F, Liu W, Tang J, Zhuang Y (2016) Deep learning driven visual path prediction from a single image. IEEE Trans Image Proc. 25(12):5892\u20135904. https:\/\/doi.org\/10.1109\/TIP.2016.2613686","journal-title":"IEEE Trans Image Proc."},{"issue":"2","key":"5438_CR35","doi-asserted-by":"publisher","first-page":"984","DOI":"10.1109\/LRA.2016.2529686","volume":"1","author":"F Husain","year":"2016","unstructured":"Husain F, Dellen B, Torras C (2016) Action recognition based on E_cient deep feature learning in the Spatio-temporal domain. IEEE Robo Auto Lett 1(2):984\u2013991. https:\/\/doi.org\/10.1109\/LRA.2016.2529686","journal-title":"IEEE Robo Auto Lett"},{"issue":"1","key":"5438_CR36","doi-asserted-by":"publisher","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","volume":"35","author":"S Ji","year":"2013","unstructured":"Ji S, Xu W, Yang M, Yu K (2013) 3D convolutional neural networks for human action recognition. IEEE Trans Pattern Anal Mach Intell 35(1):221\u2013231. https:\/\/doi.org\/10.1109\/TPAMI.2012.59","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"5438_CR37","doi-asserted-by":"crossref","unstructured":"Jiang Y-G, Ye G, Chang S-F, Ellis D, Loui AC (2011) Consumer video understanding: a benchmark database and an evaluation of human and machine performance. In: Proceedings of ACM Int Conf on Multimedia Retrieval (ICMR'11), Trento, Italy","DOI":"10.1145\/1991996.1992025"},{"key":"5438_CR38","doi-asserted-by":"publisher","first-page":"122","DOI":"10.1016\/j.patrec.2013.09.021","volume":"50(C","author":"M Jiu","year":"2014","unstructured":"Jiu M, Wolf C, Taylor G, Baskurt A (2014) Human body part estimation from depth images via spatially-constrained deep learning. Pattern Recogn Lett 50(C:122\u2013129. https:\/\/doi.org\/10.1016\/j.patrec.2013.09.021","journal-title":"Pattern Recogn Lett"},{"issue":"2","key":"5438_CR39","doi-asserted-by":"publisher","first-page":"139","DOI":"10.1007\/s12193-015-0175-6.","volume":"10","author":"H Kaya","year":"2016","unstructured":"Kaya H, Salah AA (2016) Combining modality-specific extreme learning Machines for Emotion Recognition in the wild. J on Multimodal User. Interfaces 10(2):139\u2013149. https:\/\/doi.org\/10.1007\/s12193-015-0175-6.","journal-title":"Interfaces"},{"key":"5438_CR40","unstructured":"Krizhevsky A, Sutskever I, and Hinton GE (2012) ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems (NIPS'12) vol 1, USA, p 1097\u20131105"},{"key":"5438_CR41","doi-asserted-by":"publisher","unstructured":"Kong Y, Fu Y (2016) Human activity recognition and prediction, springer Int publishing, Switzerland, chapter \"action recognition and human interaction\", pp. 23-48. doi: https:\/\/doi.org\/10.1007\/978-3-319-27004-3 2","DOI":"10.1007\/978-3-319-27004-3%202"},{"issue":"8","key":"5438_CR42","doi-asserted-by":"crossref","first-page":"951","DOI":"10.1177\/0278364913478446","volume":"32","author":"HS Koppula","year":"2013","unstructured":"Koppula HS, Gupta R, Saxena A (2013) Learning human activities and object affordances from RGB-D videos. Int J Rob Res (IJRR) 32(8):951\u2013970","journal-title":"Int J Rob Res (IJRR)"},{"key":"5438_CR43","doi-asserted-by":"publisher","unstructured":"Lai K, Bo L, Ren X, Fox D (2011) A large-scale hierarchical multi-view RGB-D object dataset. In: proceedings of IEEE International Conference on Robotics and Automation (ICRA'11), shanghai, China, pp. 1817\u20131824, doi: https:\/\/doi.org\/10.1109\/ICRA.2011.5980382","DOI":"10.1109\/ICRA.2011.5980382"},{"key":"5438_CR44","doi-asserted-by":"publisher","unstructured":"Le QV, Zou WY, Yeung SY, Ng AY (2011) Learning hierarchical invariant Spatio-temporal features for action recognition with independent subspace analysis. In: Proceedings of IEEE Conf on Computer Vision and Pattern Recognition (CVPR'11), Colorado Springs, USA, pp. 3361-3368, 24 https:\/\/doi.org\/10.1109\/CVPR.2011.5995496","DOI":"10.1109\/CVPR.2011.5995496"},{"issue":"4","key":"5438_CR45","doi-asserted-by":"publisher","first-page":"541","DOI":"10.1162\/neco.1989.1.4.541","volume":"1","author":"Y LeCun","year":"1989","unstructured":"LeCun Y, Boser B, Denker JS, Henderson D, Howard RE, Hubbard W, Jackel LD (1989) Backpropagation applied to handwritten zip code recognition. J of Neural Comput 1(4):541\u2013551. https:\/\/doi.org\/10.1162\/neco.1989.1.4.541","journal-title":"J of Neural Comput"},{"issue":"12","key":"5438_CR46","doi-asserted-by":"publisher","first-page":"1323","DOI":"10.1016\/j.robot.2013.08.003","volume":"61","author":"K Lee","year":"2013","unstructured":"Lee K, Su Y, Kim T-K, Demiris Y (2013) A syntactic approach to robot imitation learning using probabilistic activity grammars. J of Robot Auton Syst 61(12):1323\u20131334. https:\/\/doi.org\/10.1016\/j.robot.2013.08.003","journal-title":"J of Robot Auton Syst"},{"key":"5438_CR47","doi-asserted-by":"publisher","unstructured":"Lee JT, Lim K-T, Chung Y, Sugimoto A (2016) Moving shadow detection from background image and deep learning. In: Proceedings of Image and Video Technology (IVT'15), workshops, Auckland, New Zealand, pp. 299\u2013306, doi: https:\/\/doi.org\/10.1007\/978-3-319-30285-0 24","DOI":"10.1007\/978-3-319-30285-0%2024"},{"key":"5438_CR48","doi-asserted-by":"publisher","unstructured":"Li S, Zhang W, Chan AB (2015a) Maximum-margin structured learning with deep networks for 3D human pose estimation. In: Proceedings of IEEE Int Conf on computer vision(ICCV), pp. 2848\u20132856, doi: https:\/\/doi.org\/10.1109\/ICCV.2015.326g","DOI":"10.1109\/ICCV.2015.326g"},{"key":"5438_CR49","doi-asserted-by":"crossref","first-page":"565","DOI":"10.1016\/j.neucom.2014.06.086","volume":"151","author":"S-Z Li","year":"2015","unstructured":"Li S-Z, Yu B, Wu W, Su S-Z, Ji R (2015b) Feature learning based on SAE-PCA network for human gesture recognition in RGBD images. J Neurocomputing 151:565\u2013573","journal-title":"J Neurocomputing"},{"issue":"3","key":"5438_CR50","doi-asserted-by":"publisher","first-page":"367","DOI":"10.1109\/TCSVT.2014.2358029","volume":"25","author":"T Li","year":"2015","unstructured":"Li T, Chang H, Wang M, Ni B, Hong R, Yan S (2015c) Crowded scene analysis: a survey. IEEE Trans Circuits Syst Video Technol 25(3):367\u2013386. https:\/\/doi.org\/10.1109\/TCSVT.2014.2358029","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"issue":"4","key":"5438_CR51","doi-asserted-by":"publisher","first-page":"1834","DOI":"10.1109\/TIP.2015.2510583","volume":"25","author":"H Li","year":"2016","unstructured":"Li H, Li Y, Porikli F (2016) DeepTrack: learning discriminative feature representations online for robust visual tracking. IEEE Trans Image Process 25(4):1834\u20131848. ISSN 1057-7149. https:\/\/doi.org\/10.1109\/TIP.2015.2510583","journal-title":"IEEE Trans Image Process"},{"key":"5438_CR52","doi-asserted-by":"publisher","unstructured":"Lin Z, Yuan C (2016) A very deep sequences learning approach for human action recognition. In: Proceedings of 22nd Int Conf on MultiMedia Modeling, springer Int publishing, Miami, FL, USA, pp. 256\u2013267. doi: https:\/\/doi.org\/10.1007\/978-3-319-27674-8 23","DOI":"10.1007\/978-3-319-27674-8%2023"},{"key":"5438_CR53","doi-asserted-by":"publisher","unstructured":"Lin T et al (2014) Microsoft COCO: common objects in context. In: Proceedings of the 13th European conference on computer vision (ECCV'14), Zurich, Switzerland, pp. 740\u2013755. doi: https:\/\/doi.org\/10.1007\/978-3-319-10602-1_48","DOI":"10.1007\/978-3-319-10602-1_48"},{"issue":"2","key":"5438_CR54","doi-asserted-by":"publisher","first-page":"256","DOI":"10.1007\/s11263-015-0876-z.","volume":"118","author":"L Lin","year":"2016","unstructured":"Lin L, Wang K, Zuo W, Wang M, Luo J, Zhang L (2016) A deep structured model with radius-margin bound for 3D human activity recognition. Int J Comput Vision 118(2):256\u2013273. https:\/\/doi.org\/10.1007\/s11263-015-0876-z.","journal-title":"Int J Comput Vision"},{"key":"5438_CR55","doi-asserted-by":"publisher","unstructured":"Liu N, Han J, Zhang D, Wen S, Liu T (2015a) Predicting eye fixations using convolutional neural networks. In: Proceedings of IEEE Conf on computer vision and pattern recognition (CVPR'15), pp. 362\u2013370. doi: https:\/\/doi.org\/10.1109\/CVPR.2015.7298633","DOI":"10.1109\/CVPR.2015.7298633"},{"key":"5438_CR56","doi-asserted-by":"publisher","unstructured":"Liu Y, Guo Y, Wu S, Lew M (2015b) DeepIndex for accurate and efficient image retrieval. In: Proceedings of the ACM International Conference on Multimedia Retrieval (ICMR'15), shanghai, China, pp. 43\u201350, doi: https:\/\/doi.org\/10.1145\/2671188.2749300","DOI":"10.1145\/2671188.2749300"},{"key":"5438_CR57","doi-asserted-by":"publisher","first-page":"816","DOI":"10.1007\/978-3-319-46487-9-50","volume-title":"Proceedings of the 14th European Conf computer vision (ECCV'16)","author":"J Liu","year":"2016","unstructured":"Liu J, Shahroudy A, Xu D, Wang G (2016a) Spatio-temporal LSTM with trust gates for 3D human action recognition. In: Proceedings of the 14th European Conf computer vision (ECCV'16). Netherlands, Amsterdam, pp 816\u2013833. https:\/\/doi.org\/10.1007\/978-3-319-46487-9-50"},{"issue":"2","key":"5438_CR58","doi-asserted-by":"publisher","first-page":"113","DOI":"10.1007\/s12193-015-0204-5.","volume":"10","author":"M Liu","year":"2016","unstructured":"Liu M, Wang R, Li S, Huang Z, Shan S, Chen X (2016b) Video modeling and learning on Riemannian manifold for emotion recognition in the wild. J on Multimodal User. Interfaces 10(2):113\u2013124. https:\/\/doi.org\/10.1007\/s12193-015-0204-5.","journal-title":"Interfaces"},{"issue":"7","key":"5438_CR59","doi-asserted-by":"publisher","first-page":"1628","DOI":"10.1109\/TMM.2013.2264928","volume":"15","author":"Z Ma","year":"2013","unstructured":"Ma Z, Yang Y, Sebe N, Zheng K, Hauptmann AG (2013) Multimedia event detection using a classifier-specific intermediate representation. IEEE Trans on Multimedia 15(7):1628\u20131637. https:\/\/doi.org\/10.1109\/TMM.2013.2264928","journal-title":"IEEE Trans on Multimedia"},{"key":"5438_CR60","doi-asserted-by":"publisher","unstructured":"Marszalek M, Laptev I, Schmid C (2009) Actions in context. In: Proceedings of IEEE Conf on computer vision and pattern recognition (CVPR'09), pp. 2929\u20132936. doi: https:\/\/doi.org\/10.1109\/CVPR.2009.5206557","DOI":"10.1109\/CVPR.2009.5206557"},{"key":"5438_CR61","unstructured":"Mathieu M, Couprie C, LeCun Y (2016) Deep multi-scale video prediction beyond mean square error. In: Proceedings of Int Conf on Learning Representations (ICLR'16), San Juan, Puerto Rico"},{"key":"5438_CR62","unstructured":"Mnih V, Heess N, Graves A, Kavukcuoglu K (2014) Recurrent models of visual attention. In: Collections of Advances in Neural Information Processing Systems, No. 27, Curran Associates, Inc., pp. 2204\u20132212"},{"key":"5438_CR63","doi-asserted-by":"publisher","first-page":"100","DOI":"10.1016\/j.patrec.2015.01.013","volume":"66(C","author":"DC Mocanu","year":"2015","unstructured":"Mocanu DC, Bou Ammar H, Lowet D, Driessens K, Liotta A, Weiss G, Tuyls K (2015) Factored four way conditional restricted Boltzmann Machines for Activity Recognition. Pattern Recogn Lett 66(C:100\u2013108. https:\/\/doi.org\/10.1016\/j.patrec.2015.01.013","journal-title":"Pattern Recogn Lett"},{"issue":"1","key":"5438_CR64","doi-asserted-by":"publisher","first-page":"82","DOI":"10.1016\/j.imavis.2007.08.013","volume":"26","author":"B Neumann","year":"2008","unstructured":"Neumann B, M\u00f6ller R (2008) On scene interpretation with description logics. J of. Image Vis Comput 26(1):82\u2013101. https:\/\/doi.org\/10.1016\/j.imavis.2007.08.013","journal-title":"Image Vis Comput"},{"issue":"1","key":"5438_CR65","doi-asserted-by":"publisher","first-page":"14","DOI":"10.1007\/s11263-016-0890-9","volume":"120","author":"W Ouyang","year":"2016","unstructured":"Ouyang W, Zeng X, Wang X (2016) Learning mutual visibility relationship for pedestrian detection with a deep model. Int J Comput Vision 120(1):14\u201327. https:\/\/doi.org\/10.1007\/s11263-016-0890-9","journal-title":"Int J Comput Vision"},{"key":"5438_CR66","doi-asserted-by":"publisher","unstructured":"Pan Y, Mei T, Yao T, Li H, Rui Y (2016) Jointly modeling embedding and translation to bridge video and language. In: Proceedings of IEEE Conf on computer vision and pattern recognition (CVPR'16), pp. 4594\u20134602, doi: https:\/\/doi.org\/10.1109\/CVPR.2016.497","DOI":"10.1109\/CVPR.2016.497"},{"issue":"11","key":"5438_CR67","doi-asserted-by":"publisher","first-page":"1395","DOI":"10.1007\/s00371-015-1090-2","volume":"32","author":"L Pei","year":"2016","unstructured":"Pei L, Ye M, Zhao X, Dou Y, Bao J (2016a) Action recognition by learning temporal slowness invariant features. J Visual Comput 32(11):1395\u20131404. https:\/\/doi.org\/10.1007\/s00371-015-1090-2","journal-title":"J Visual Comput"},{"issue":"1","key":"5438_CR68","doi-asserted-by":"publisher","first-page":"199","DOI":"10.1007\/s11760-014-0726-4.","volume":"10","author":"L Pei","year":"2016","unstructured":"Pei L, Ye M, Zhao X, Xiang T, Li T (2016b) Learning Spatio-temporal features for action recognition from the side of the video. J SIViP 10(1):199\u2013206. https:\/\/doi.org\/10.1007\/s11760-014-0726-4.","journal-title":"J SIViP"},{"key":"5438_CR69","doi-asserted-by":"publisher","first-page":"279","DOI":"10.1016\/j.neucom.2016.12.017","volume":"230","author":"M Perez","year":"2017","unstructured":"Perez M, Avila S, Moreira D, Moraes D, Testoni V, Valle E, Goldenstein S, Rocha A (2017) Video pornography detection through deep learning techniques and motion information. J Neurocomput 230:279\u2013293. https:\/\/doi.org\/10.1016\/j.neucom.2016.12.017","journal-title":"J Neurocomput"},{"key":"5438_CR70","doi-asserted-by":"publisher","unstructured":"Pigou L, van den Oord A, Dieleman S, Herreweghe MV, Dambre J (2016) Beyond temporal pooling: recurrence and temporal convolutions for gesture recognition in video. Int J of Computer Vision https:\/\/doi.org\/10.1007\/s11263-016-0957-7","DOI":"10.1007\/s11263-016-0957-7"},{"issue":"6","key":"5438_CR71","doi-asserted-by":"publisher","first-page":"976","DOI":"10.1016\/j.imavis.2009.11.014.","volume":"28","author":"R Poppe","year":"2010","unstructured":"Poppe R (2010) A survey on vision-based human action recognition. J Image Vision Comput 28(6):976\u2013990. https:\/\/doi.org\/10.1016\/j.imavis.2009.11.014.","journal-title":"J Image Vision Comput"},{"key":"5438_CR72","doi-asserted-by":"publisher","unstructured":"Revathi AR, Kumar D (2016) An efficient system for anomaly detection using deep learning classifier. J of. SIViP 11(2):1\u20139. https:\/\/doi.org\/10.1007\/s11760-016-0935-0","DOI":"10.1007\/s11760-016-0935-0"},{"key":"5438_CR73","doi-asserted-by":"publisher","unstructured":"Rohrbach A, Rohrbach M, Schiele B (2015) The long-short story of movie description. In: Proceedings of 37th German Conf on Pattern Recognition (GCPR'15), springer Int publishing, Aachen, Germany, pp. 209\u2013221, doi: https:\/\/doi.org\/10.1007\/978-3-319-24947-6 17","DOI":"10.1007\/978-3-319-24947-6%2017"},{"key":"5438_CR74","doi-asserted-by":"publisher","first-page":"235","DOI":"10.1016\/j.eswa.2016.04.032","volume":"59","author":"CA Ronao","year":"2016","unstructured":"Ronao CA, Cho S-B (2016) Human activity recognition with smartphone sensors using deep learning neural networks. J Expert Syst Appl 59:235\u2013244. https:\/\/doi.org\/10.1016\/j.eswa.2016.04.032","journal-title":"J Expert Syst Appl"},{"key":"5438_CR75","unstructured":"Salakhutdinov R, Hinton GE (2009) Deep Boltzmann Machines. In: Proceedings of the twelfth Int Conf on artificial intelligence and statistics (AISTATS'09), Clearwater Beach, Florida, USA, pp. 448\u2013455"},{"key":"5438_CR76","doi-asserted-by":"publisher","unstructured":"Sarkar S, Venugopalan V, Reddy K, Ryde J, Jaitly N, Giering M (2016) Deep learning for automated occlusion edge detection in RGB-D frames. J Signal Process Syst 88(2):205\u2013217. https:\/\/doi.org\/10.1007\/s11265-016-1209-3","DOI":"10.1007\/s11265-016-1209-3"},{"key":"5438_CR77","doi-asserted-by":"crossref","unstructured":"Schuldt C, Laptev I, Caputo B (2004) Recognizing human actions: a local SVM approach. In: Proceedings of the 17th Int Conf on Pattern Recognition (ICPR'04), vol 3, pp. 32\u201336","DOI":"10.1109\/ICPR.2004.1334462"},{"key":"5438_CR78","doi-asserted-by":"publisher","unstructured":"Sermanet P, Kavukcuoglu K, Chintala S, Lecun Y (2013) Pedestrian detection with unsupervised multistage feature learning. In: Proceedings of the 2013 I.E. Conf on Computer Vision and Pattern Recognition (CVPR'13), IEEE computer society, Portland, Oregon, pp. 3626\u20133633, doi: https:\/\/doi.org\/10.1109\/CVPR.2013.465","DOI":"10.1109\/CVPR.2013.465"},{"key":"5438_CR79","doi-asserted-by":"publisher","unstructured":"Shahroudy A, Liu J, Ng T-T, Wang G (2016) NTU RGB+D: a large scale dataset for 3D human activity analysis. In: Proceedings of the IEEE Conf on Computer Vision and Pattern Recognition (CVPR'16), Las Vegas, NV, USA, pp. 1010\u20131019, doi: https:\/\/doi.org\/10.1109\/CVPR.2016.115","DOI":"10.1109\/CVPR.2016.115"},{"issue":"1","key":"5438_CR80","doi-asserted-by":"crossref","first-page":"99","DOI":"10.1007\/s00530-014-0399-4","volume":"22","author":"J Shen","year":"2016","unstructured":"Shen J, Wang M, Chua T-S (2016) Accurate online video tagging via probabilistic hybrid modeling, journal of. Multimedia Systems 22(1):99\u2013113","journal-title":"Multimedia Systems"},{"key":"5438_CR81","doi-asserted-by":"publisher","first-page":"4249","DOI":"10.1109\/CVPR.2015.7299053","volume-title":"Proceedings of the IEEE Conf on computer vision and pattern recognition (CVPR'15)","author":"B Shuai","year":"2015","unstructured":"Shuai B, Wang G, Zuo Z, Wang B, Zhao L (2015) Integrating parametric and non-parametric models for scene labeling. In: Proceedings of the IEEE Conf on computer vision and pattern recognition (CVPR'15). MA, USA, Boston, pp 4249\u20134258. https:\/\/doi.org\/10.1109\/CVPR.2015.7299053"},{"key":"5438_CR82","unstructured":"Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. Computing research repository (CoRR), vol abs\/1409.1556"},{"key":"5438_CR83","doi-asserted-by":"publisher","unstructured":"Singh S, Velastin SA, Ragheb H (2010) MuHAVi: a multicamera human action video dataset for the evaluation of action recognition methods. In: Proceedings of the 7th IEEE Int Conf on advanced video and signal based surveillance, pp. 48\u201355, doi: https:\/\/doi.org\/10.1109\/AVSS.2010.63","DOI":"10.1109\/AVSS.2010.63"},{"key":"5438_CR84","doi-asserted-by":"publisher","unstructured":"Singh S, Hoiem D, Forsyth D (2015) Learning a sequential search for landmarks. In: Proceedings of IEEE Conf on computer vision and pattern recognition (CVPR'15), pp. 3422\u20133430, doi: https:\/\/doi.org\/10.1109\/CVPR.2015.7298964","DOI":"10.1109\/CVPR.2015.7298964"},{"key":"5438_CR85","doi-asserted-by":"publisher","unstructured":"Soomro K, Zamir AR (2014) Computer vision in sports, Springer Int Publishing, chapter \"action recognition in realistic sports videos\", pp. 181-208. doi: https:\/\/doi.org\/10.1007\/978-3-319-09396-3 9","DOI":"10.1007\/978-3-319-09396-3%209"},{"key":"5438_CR86","doi-asserted-by":"publisher","first-page":"621","DOI":"10.1007\/978-981-10-3005-5 51","volume-title":"Proceedings of 7th Chinese Conf on pattern recognition (CCPR2016)","author":"B Sun","year":"2016","unstructured":"Sun B, Xu Q, He J, Yu L, Li L, Wei Q (2016) Audio-video based multimodal emotion recognition using SVMs and deep learning. In: Proceedings of 7th Chinese Conf on pattern recognition (CCPR2016). Springer Singapore, Chengdu, pp 621\u2013631. https:\/\/doi.org\/10.1007\/978-981-10-3005-5 51"},{"key":"5438_CR87","doi-asserted-by":"publisher","unstructured":"Szegedy C, Liu W, Jia Y (2015) Going deeper with convolutions. In: Proceedings of IEEE conference on computer vision and pattern recognition (CVPR), Boston, MA, 2015, pp 1\u20139. https:\/\/doi.org\/10.1109\/CVPR.2015.7298594","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"5438_CR88","doi-asserted-by":"publisher","first-page":"482","DOI":"10.1016\/j.image.2016.05.007","volume":"47","author":"D Tome","year":"2016","unstructured":"Tome D, Monti F, Baroffo L, Bondi L, Tagliasacchi M, Tubaro S (2016) Deep convolutional neural networks for pedestrian detection. J of Signal Processing: Image Communication 47:482\u2013489. https:\/\/doi.org\/10.1016\/j.image.2016.05.007","journal-title":"J of Signal Processing: Image Communication"},{"key":"5438_CR89","doi-asserted-by":"publisher","first-page":"871","DOI":"10.1007\/978-3-319-49409-8 70","volume-title":"Proceedings part III of computer vision (ECCV'16)","author":"M Trumble","year":"2016","unstructured":"Trumble M, Gilbert A, Hilton A, Collomosse JP (2016) Learning Markerless human pose estimation from multiple viewpoint video. In: Proceedings part III of computer vision (ECCV'16). Workshops, Amsterdam, The Netherlands, pp 871\u2013878. https:\/\/doi.org\/10.1007\/978-3-319-49409-8 70"},{"issue":"7","key":"5438_CR90","doi-asserted-by":"publisher","first-page":"3395","DOI":"10.1109\/TIP.2016.2531280","volume":"25","author":"RR Varior","year":"2016","unstructured":"Varior RR, Wang G, Lu J, Liu T (2016) Learning invariant color features for person re-identification. IEEE Trans. on Image Proc. 25(7):3395\u20133410. https:\/\/doi.org\/10.1109\/TIP.2016.2531280","journal-title":"IEEE Trans. on Image Proc."},{"key":"5438_CR91","doi-asserted-by":"publisher","unstructured":"Venugopalan S, Rohrbach M, Donahue J, Mooney R, Darrell T, Saenko K (2015a) Sequence to Sequence-Video to Text. In: Proceedings of IEEE Int Conf on computer vision (ICCV'15), pp. 4534\u20134542, doi: https:\/\/doi.org\/10.1109\/ICCV.2015.515","DOI":"10.1109\/ICCV.2015.515"},{"key":"5438_CR92","doi-asserted-by":"crossref","unstructured":"Venugopalan S, Xu H, Donahue J, Rohrbach M, Mooney RJ, Saenko K (2015b) Translating videos to natural language using deep recurrent neural networks. In: Proceedings of Conf of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT'15), Denver, Colorado, USA, pp. 1494\u20131504","DOI":"10.3115\/v1\/N15-1173"},{"key":"5438_CR93","doi-asserted-by":"publisher","unstructured":"Vincent P, Larochelle H, Bengio Y, Manzagol P-A (2008) Extracting and composing robust features with Denoising autoencoders. In: Proceedings of the 25th Int Conf on Machine Learning (ICML'08), ACM, Helsinki, Finland, pp. 1096\u20131103, doi: https:\/\/doi.org\/10.1145\/1390156.1390294","DOI":"10.1145\/1390156.1390294"},{"key":"5438_CR94","unstructured":"Wang D (2007) Challenges for computational intelligence, springer, berlin, Germany, chapter \"computational scene analysis\", pp. 163-191"},{"key":"5438_CR95","unstructured":"Wang L, Sng D (2015) Deep learning algorithms with applications to video analytics for a Smart City: a survey. CoRR, https:\/\/arxiv.org\/abs\/1512.03131v1"},{"issue":"15","key":"5438_CR96","doi-asserted-by":"publisher","first-page":"9255","DOI":"10.1007\/s11042-016-3380-8.","volume":"75","author":"C Wang","year":"2016","unstructured":"Wang C, Yang H, Meinel C (2016) A deep semantic framework for multimodal representation learning. J of. Multimedia Tools Appl 75(15):9255\u20139276. https:\/\/doi.org\/10.1007\/s11042-016-3380-8.","journal-title":"Multimedia Tools Appl"},{"key":"5438_CR97","doi-asserted-by":"publisher","unstructured":"Wu C, Cheng H-P, Li S, Li HH, Chen Y (2016) ApesNet: a pixel-wise efficient segmentation network. In proceedings of the 14th ACM\/IEEE symposium on embedded Systems for Real-Time Multimedia (ESTIMedia'16), pp. 2-8, Pittsburgh, PA, USA, October 2016. ACM. ISBN 978-1-4503-4543-9. doi: https:\/\/doi.org\/10.1145\/2993452.2994306","DOI":"10.1145\/2993452.2994306"},{"key":"5438_CR98","doi-asserted-by":"publisher","unstructured":"Wu G, Liu L, Guo Y, Ding G, Han J, Shen J, Shao L (2017). Unsupervised deep video hashing with balanced rotation. In processing of the twenty-sixth international joint conference on artificial intelligence (IJCAI\u201917), pp. 3076-3082, Melbourne, Australia, august 2016. 10.24963\/ijcai.2017\/429","DOI":"10.24963\/ijcai.2017\/429"},{"key":"5438_CR99","doi-asserted-by":"publisher","unstructured":"Xia D-X, S-Z S, Geng L-C, G-X W, Li S-Z (2016) Learning rich features from Objectness estimation for human lying-pose detection. J Multimedia Syst 23(4):515\u2013526. https:\/\/doi.org\/10.1007\/s00530-016-0518-5","DOI":"10.1007\/s00530-016-0518-5"},{"key":"5438_CR100","doi-asserted-by":"publisher","unstructured":"Xu W, Miao Z, Zhang J, Tian Y (2015) Learning Spatio-temporal features for action recognition with modified hidden conditional random field. In: Proceedings, Part I of Computer Vision (ECCV'14), workshops, springer Int publishing, Zurich, Switzerland, pp. 786\u2013801, doi: https:\/\/doi.org\/10.1007\/978-3-319-16178-5 55","DOI":"10.1007\/978-3-319-16178-5%2055"},{"key":"5438_CR101","doi-asserted-by":"publisher","first-page":"117","DOI":"10.1016\/j.cviu.2016.10.010.","volume":"156","author":"D Xu","year":"2017","unstructured":"Xu D, Yan Y, Ricci E, Sebe N (2017) Detecting anomalous events in videos by learning deep representations of appearance and motion. Elsevier J Comput Vis Image Underst 156:117\u2013127. https:\/\/doi.org\/10.1016\/j.cviu.2016.10.010.","journal-title":"Elsevier J Comput Vis Image Underst"},{"key":"5438_CR102","doi-asserted-by":"publisher","unstructured":"Yao L, Torabi A, Cho K, Ballas N, Pal C, Larochelle H, Courville A (2015) Describing videos by exploiting temporal structure. In: Proceedings of IEEE Int Conf on computer vision (ICCV'15), pp. 4507\u20134515, doi: https:\/\/doi.org\/10.1109\/ICCV.2015.512","DOI":"10.1109\/ICCV.2015.512"},{"key":"5438_CR103","doi-asserted-by":"crossref","unstructured":"Young P, Lai A, Hodosh M, Hockenmaier J (2014), From image descriptions to visual denotations: new similarity metrics for semantic inference over event descriptions. Trans. of the Association for Computational Linguistics (TACL), 2(Feb.):67\u201378.","DOI":"10.1162\/tacl_a_00166"},{"key":"5438_CR104","doi-asserted-by":"publisher","unstructured":"Zeiler MD, Fergus R (2014) Visualizing and understanding convolutional networks. In: Proceedings Part I of the 13th European Conf Computer Vision (ECCV'14), Zurich, Switzerland, pp. 818\u2013833, https:\/\/doi.org\/10.1007\/978-3-319-10590-1 53","DOI":"10.1007\/978-3-319-10590-1%2053"},{"key":"5438_CR105","doi-asserted-by":"publisher","first-page":"454","DOI":"10.1016\/j.neucom.2015.05.082.","volume":"168","author":"Y Zhang","year":"2015","unstructured":"Zhang Y, Li X, Zhang ZM, Wu F, Zhao L (2015) Deep learning driven Blockwise moving object detection with binary scene modeling. J Neurocomputing 168:454\u2013463. https:\/\/doi.org\/10.1016\/j.neucom.2015.05.082.","journal-title":"J Neurocomputing"},{"issue":"6","key":"5438_CR106","doi-asserted-by":"publisher","first-page":"2166","DOI":"10.1109\/TII.2016.2560802","volume":"12","author":"W Zhang","year":"2016","unstructured":"Zhang W, Duan P, Gong W, Lu Q, Yang S (2016a) A load-aware pluggable cloud framework for real-time video processing. IEEE Trans Industrial Inf 12(6):2166\u20132176. https:\/\/doi.org\/10.1109\/TII.2016.2560802","journal-title":"IEEE Trans Industrial Inf"},{"issue":"3","key":"5438_CR107","doi-asserted-by":"publisher","first-page":"1033","DOI":"10.1109\/TIP.2015.2511585","volume":"25","author":"X Zhang","year":"2016","unstructured":"Zhang X, Zhang H, Zhang Y, Yang Y, Wang M, Luan H, Li J, Chua TS (2016b) Deep fusion of multiple semantic cues for complex event recognition. IEEE Trans Image Proc. 25(3):1033\u20131046. https:\/\/doi.org\/10.1109\/TIP.2015.2511585","journal-title":"IEEE Trans Image Proc."},{"issue":"3","key":"5438_CR108","doi-asserted-by":"publisher","first-page":"329","DOI":"10.1007\/s11263-016-0896-3","volume":"119","author":"F Zhao","year":"2016","unstructured":"Zhao F, Huang Y, Wang L, Xiang T, Tan T (2016) Learning relevance restricted Boltzmann machine for unstructured group activity and event understanding. Int J Comput Vis 119(3):329\u2013345. https:\/\/doi.org\/10.1007\/s11263-016-0896-3","journal-title":"Int J Comput Vis"},{"issue":"1","key":"5438_CR109","doi-asserted-by":"publisher","first-page":"50","DOI":"10.1007\/s11263-014-0735-3","volume":"111","author":"B Zhou","year":"2015","unstructured":"Zhou B, Tang X, Wang X (2015) Learning collective crowd behaviors with dynamic pedestrian-agents. Int J Comput Vis 111(1):50\u201368. https:\/\/doi.org\/10.1007\/s11263-014-0735-3","journal-title":"Int J Comput Vis"},{"key":"5438_CR110","doi-asserted-by":"publisher","unstructured":"Zhu Y, Kiros R, Zemel R, Salakhutdinov R, Urtasun R, Torralba A, Fidler S (2015) Aligning books and movies: towards story-like visual explanations by watching movies and reading books. In: Proceedings of IEEE Int Conf on Computer Vision (ICCV'15), pp. 19-27, doi: https:\/\/doi.org\/10.1109\/ICCV.2015.11","DOI":"10.1109\/ICCV.2015.11"},{"key":"5438_CR111","doi-asserted-by":"publisher","first-page":"42","DOI":"10.1016\/j.imavis.2016.06.007.","volume":"55","author":"F Zhu","year":"2016","unstructured":"Zhu F, Shao L, Xie J, Fang Y (2016a) From handcrafted to learned representations for human action recognition: a survey. J Image Vis Comput 55:42\u201352. https:\/\/doi.org\/10.1016\/j.imavis.2016.06.007.","journal-title":"J Image Vis Comput"},{"issue":"3","key":"5438_CR112","doi-asserted-by":"publisher","first-page":"247","DOI":"10.1007\/s11263-015-0864-3","volume":"117","author":"X Zhu","year":"2016","unstructured":"Zhu X, Loy CC, Gong S (2016b) Learning from multiple sources for video summarisation. Int J Comput Vis 117(3):247\u2013268. https:\/\/doi.org\/10.1007\/s11263-015-0864-3","journal-title":"Int J Comput Vis"},{"key":"5438_CR113","doi-asserted-by":"publisher","first-page":"3","DOI":"10.1016\/j.neucom.2012.02.038","volume":"100","author":"MD Zuniga","year":"2013","unstructured":"Zuniga MD, Bremond F, Thonnat M (2013) Hierarchical and incremental event learning approach based on concept formation models. J of Neurocomputing 100:3\u201318. https:\/\/doi.org\/10.1016\/j.neucom.2012.02.038","journal-title":"J of Neurocomputing"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-017-5438-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-017-5438-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-017-5438-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,10,7]],"date-time":"2019-10-07T15:42:30Z","timestamp":1570462950000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-017-5438-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,12,9]]},"references-count":113,"journal-issue":{"issue":"16","published-print":{"date-parts":[[2018,8]]}},"alternative-id":["5438"],"URL":"https:\/\/doi.org\/10.1007\/s11042-017-5438-7","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017,12,9]]}}}