{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,27]],"date-time":"2025-11-27T06:39:30Z","timestamp":1764225570882,"version":"3.37.3"},"reference-count":76,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2019,10,22]],"date-time":"2019-10-22T00:00:00Z","timestamp":1571702400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2019,10,22]],"date-time":"2019-10-22T00:00:00Z","timestamp":1571702400000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100003725","name":"National Research Foundation of Korea","doi-asserted-by":"publisher","award":["2018R1D1A1B07049113"],"award-info":[{"award-number":["2018R1D1A1B07049113"]}],"id":[{"id":"10.13039\/501100003725","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002486","name":"Hankuk University of Foreign Studies","doi-asserted-by":"publisher","award":["2019"],"award-info":[{"award-number":["2019"]}],"id":[{"id":"10.13039\/501100002486","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2020,2]]},"DOI":"10.1007\/s11263-019-01248-3","type":"journal-article","created":{"date-parts":[[2019,10,23]],"date-time":"2019-10-23T04:30:17Z","timestamp":1571805017000},"page":"393-419","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":36,"title":["Semantic Image Networks for Human Action Recognition"],"prefix":"10.1007","volume":"128","author":[{"given":"Sunder Ali","family":"Khowaja","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8630-5395","authenticated-orcid":false,"given":"Seok-Lyong","family":"Lee","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2019,10,22]]},"reference":[{"issue":"11","key":"1248_CR1","doi-asserted-by":"publisher","first-page":"2274","DOI":"10.1109\/TPAMI.2012.120","volume":"34","author":"R Achanta","year":"2012","unstructured":"Achanta, R., Shaji, A., Smith, K., Lucchi, A., Fua, P., & S\u00fcsstrunk, S. (2012). SLIC superpixels compared to state-of-the-art superpixel methods. IEEE Transactions on Pattern Analysis and Machine Intelligence,34(11), 2274\u20132282. https:\/\/doi.org\/10.1109\/TPAMI.2012.120 .","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"2","key":"1248_CR2","doi-asserted-by":"publisher","first-page":"288","DOI":"10.1109\/TPAMI.2008.284","volume":"32","author":"S Ali","year":"2010","unstructured":"Ali, S., & Shah, M. (2010). Human action recognition in videos using kinematic features and multiple instance learning. IEEE Transactions on Pattern Analysis and Machine Intelligence,32(2), 288\u2013303. https:\/\/doi.org\/10.1109\/TPAMI.2008.284 .","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1248_CR3","volume-title":"Vector quantization and signal compression","author":"G Allen","year":"2012","unstructured":"Allen, G., & Gray, R. M. (2012). Vector quantization and signal compression (Vol. 159). Berlin: Springer."},{"issue":"12","key":"1248_CR4","doi-asserted-by":"publisher","first-page":"2799","DOI":"10.1109\/TPAMI.2017.2769085","volume":"40","author":"H Bilen","year":"2018","unstructured":"Bilen, H., Fernando, B., Gavves, E., & Vedaldi, A. (2018). Action recognition with dynamic image networks. IEEE Transactions on Pattern Analysis and Machine Intelligence,40(12), 2799\u20132813. https:\/\/doi.org\/10.1109\/TPAMI.2017.2769085 .","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1248_CR5","doi-asserted-by":"publisher","unstructured":"Bilen, H., Fernando, B., Gavves, E., Vedaldi, A., & Gould, S. (2016). Dynamic image networks for action recognition. In 2016 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 3034\u20133042). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2016.331 .","DOI":"10.1109\/cvpr.2016.331"},{"issue":"3","key":"1248_CR6","doi-asserted-by":"publisher","first-page":"257","DOI":"10.1109\/34.910878","volume":"23","author":"AF Bobick","year":"2001","unstructured":"Bobick, A. F., & Davis, J. W. (2001). The recognition of human movement using temporal templates. IEEE Transactions on Pattern Analysis and Machine Intelligence,23(3), 257\u2013267. https:\/\/doi.org\/10.1109\/34.910878 .","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1248_CR7","doi-asserted-by":"publisher","unstructured":"Carreira, J., & Zisserman, A. (2017). Quo vadis, action recognition? A new model and the kinetics dataset. In 2017 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 4724\u20134733). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2017.502 .","DOI":"10.1109\/cvpr.2017.502"},{"key":"1248_CR8","doi-asserted-by":"publisher","first-page":"833","DOI":"10.1007\/978-3-030-01234-2_49","volume-title":"Computer Vision \u2013 ECCV 2018","author":"Liang-Chieh Chen","year":"2018","unstructured":"Chen, L.-C., Zhu, Y., Papandreou, G., Schroff, F., & Adam, H. (2018a). Encoder\u2013decoder with atrous separable convolution for semantic image segmentation. In European conference on computer vision (pp. 833\u2013851). https:\/\/doi.org\/10.1007\/978-3-030-01234-2_49 ."},{"key":"1248_CR10","doi-asserted-by":"publisher","first-page":"364","DOI":"10.1007\/978-3-030-01246-5_22","volume-title":"Computer Vision \u2013 ECCV 2018","author":"Yunpeng Chen","year":"2018","unstructured":"Chen, Y., Kalantidis, Y., Li, J., Yan, S., & Feng, J. (2018b). Multi-fiber networks for video recognition. In European conference on computer vision (pp. 364\u2013380). https:\/\/doi.org\/10.1007\/978-3-030-01246-5_22 ."},{"key":"1248_CR11","unstructured":"Chen, Y., Kalantidis, Y., Li, J., Yan, S., & Feng, J. (2018c). A2-nets: Double attention networks. In 32nd Conference on neural information processing systems (NeurIPs) (pp. 352\u2013361)."},{"key":"1248_CR12","doi-asserted-by":"publisher","unstructured":"Cheron, G., Laptev, I., & Schmid, C. (2015). P-CNN: Pose-based CNN features for action recognition. In IEEE international conference on computer vision (ICCV) (pp. 3218\u20133226). IEEE. https:\/\/doi.org\/10.1109\/iccv.2015.368 .","DOI":"10.1109\/iccv.2015.368"},{"key":"1248_CR13","doi-asserted-by":"publisher","unstructured":"Chopra, S., Hadsell, R., & LeCun, Y. (2005). Learning a similarity metric discriminatively, with application to face verification. In IEEE computer society conference on computer vision and pattern recognition (CVPR\u201905) (Vol. 1, pp. 539\u2013546). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2005.202 .","DOI":"10.1109\/cvpr.2005.202"},{"key":"1248_CR14","doi-asserted-by":"publisher","first-page":"697","DOI":"10.1007\/978-3-319-46478-7_43","volume-title":"Computer Vision \u2013 ECCV 2016","author":"C\u00e9sar Roberto de Souza","year":"2016","unstructured":"de Souza, C. R., Gaidon, A., Vig, E., & L\u00f3pez, A. M. (2016). Sympathy for the details: Dense trajectories and hybrid classification architectures for action recognition. In European conference on computer vision (pp. 697\u2013716). https:\/\/doi.org\/10.1007\/978-3-319-46478-7_43 ."},{"key":"1248_CR15","doi-asserted-by":"publisher","first-page":"299","DOI":"10.1007\/978-3-030-01225-0_18","volume-title":"Computer Vision \u2013 ECCV 2018","author":"Ali Diba","year":"2018","unstructured":"Diba, A., Fayyaz, M., Sharma, V., Arzani, M. M., Yousefzadeh, R., Gall, J., & Van Gool, L. (2018). Spatio-temporal channel correlation networks for action classification. In European conference on computer vision (pp. 299\u2013315). https:\/\/doi.org\/10.1007\/978-3-030-01225-0_18 ."},{"key":"1248_CR16","doi-asserted-by":"publisher","unstructured":"Diba, A., Sharma, V., & Van Gool, L. (2017). Deep temporal linear encoding networks. In IEEE conference on computer vision and pattern recognition (CVPR) (pp. 1541\u20131550). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2017.168 .","DOI":"10.1109\/cvpr.2017.168"},{"issue":"4","key":"1248_CR17","doi-asserted-by":"publisher","first-page":"677","DOI":"10.1109\/TPAMI.2016.2599174","volume":"39","author":"J Donahue","year":"2017","unstructured":"Donahue, J., Hendricks, L. A., Rohrbach, M., Venugopalan, S., Guadarrama, S., Saenko, K., et al. (2017). Long-term recurrent convolutional networks for visual recognition and description. IEEE Transactions on Pattern Analysis and Machine Intelligence,39(4), 677\u2013691. https:\/\/doi.org\/10.1109\/TPAMI.2016.2599174 .","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"2","key":"1248_CR18","doi-asserted-by":"publisher","first-page":"91","DOI":"10.1023\/a:1021669406132","volume":"51","author":"G Doretto","year":"2003","unstructured":"Doretto, G., Chiuso, A., Wu, Y. N., & Soatto, S. (2003). Dynamic textures. International Journal of Computer Vision,51(2), 91\u2013109. https:\/\/doi.org\/10.1023\/a:1021669406132 .","journal-title":"International Journal of Computer Vision"},{"issue":"2","key":"1248_CR19","doi-asserted-by":"publisher","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","volume":"88","author":"M Everingham","year":"2010","unstructured":"Everingham, M., Van Gool, L., Williams, C. K. I., Winn, J., & Zisserman, A. (2010). The Pascal visual object classes (VOC) challenge. International Journal of Computer Vision,88(2), 303\u2013338. https:\/\/doi.org\/10.1007\/s11263-009-0275-4 .","journal-title":"International Journal of Computer Vision"},{"key":"1248_CR20","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C., Pinz, A., & Wildes, R. (2016a). Spatiotemporal residual networks for video action recognition. In Advances in neural information processing systems (pp. 3468\u20133476).","DOI":"10.1109\/CVPR.2017.787"},{"key":"1248_CR21","doi-asserted-by":"publisher","unstructured":"Feichtenhofer, C., Pinz, A., & Zisserman, A. (2016b). Convolutional two-stream network fusion for video action recognition. In 2016 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 1933\u20131941). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2016.213 .","DOI":"10.1109\/cvpr.2016.213"},{"key":"1248_CR22","unstructured":"Fei-Fei, L., Johnson, J., & Yeung, S. (2017). Visualizing what ConvNets learn. Retrieved from October 6, 2018, http:\/\/cs231n.github.io\/understanding-cnn\/ ."},{"key":"1248_CR23","doi-asserted-by":"publisher","unstructured":"Fernando, B., Gavves, E., Jose Oramas, M., Ghodrati, A., & Tuytelaars, T. (2015). Modeling video evolution for action recognition. In 2015 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 5378\u20135387). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2015.7299176 .","DOI":"10.1109\/cvpr.2015.7299176"},{"issue":"6","key":"1248_CR24","doi-asserted-by":"publisher","first-page":"381","DOI":"10.1145\/358669.358692","volume":"24","author":"MA Fischler","year":"1981","unstructured":"Fischler, M. A., & Bolles, R. C. (1981). Random sample consensus: A paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM,24(6), 381\u2013395. https:\/\/doi.org\/10.1145\/358669.358692 .","journal-title":"Communications of the ACM"},{"issue":"1","key":"1248_CR25","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1162\/neco.1992.4.1.1","volume":"4","author":"S Geman","year":"1992","unstructured":"Geman, S., Bienenstock, E., & Doursat, R. (1992). Neural networks and the bias\/variance dilemma. Neural Computation,4(1), 1\u201358. https:\/\/doi.org\/10.1162\/neco.1992.4.1.1 .","journal-title":"Neural Computation"},{"key":"1248_CR26","doi-asserted-by":"crossref","unstructured":"Hara, K., Kataoka, H., & Satoh, Y. (2018). Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet. In IEEE international conference on computer vision and pattern recognition (pp. 6546\u20136555).","DOI":"10.1109\/CVPR.2018.00685"},{"key":"1248_CR27","doi-asserted-by":"publisher","unstructured":"He, K., & Sun, J. (2015). Convolutional neural networks at constrained time cost. In 2015 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 5353\u20135360). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2015.7299173 .","DOI":"10.1109\/cvpr.2015.7299173"},{"key":"1248_CR28","doi-asserted-by":"publisher","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In 2016 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 770\u2013778). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2016.90 .","DOI":"10.1109\/cvpr.2016.90"},{"key":"1248_CR30","doi-asserted-by":"publisher","unstructured":"Jain, M., Jegou, H., & Bouthemy, P. (2013). Better exploiting motion for better action recognition. In 2013 IEEE conference on computer vision and pattern recognition (pp. 2555\u20132562). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2013.330 .","DOI":"10.1109\/cvpr.2013.330"},{"key":"1248_CR31","doi-asserted-by":"publisher","unstructured":"Jain, M., van Gemert, J. C., & Snoek, C. G. M. (2015). What do 15,000 object categories tell us about classifying and localizing actions? In 2015 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 46\u201355). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2015.7298599 .","DOI":"10.1109\/cvpr.2015.7298599"},{"issue":"1","key":"1248_CR32","doi-asserted-by":"publisher","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","volume":"35","author":"S Ji","year":"2013","unstructured":"Ji, S., Xu, W., Yang, M., & Yu, K. (2013). 3D convolutional neural networks for human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence,35(1), 221\u2013231. https:\/\/doi.org\/10.1109\/TPAMI.2012.59 .","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1248_CR33","doi-asserted-by":"publisher","unstructured":"Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., et al. (2014). Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the ACM international conference on multimedia\u2014MM\u201914 (pp. 675\u2013678). New York, NY: ACM Press. https:\/\/doi.org\/10.1145\/2647868.2654889 .","DOI":"10.1145\/2647868.2654889"},{"key":"1248_CR34","doi-asserted-by":"publisher","unstructured":"Ke, Y., Sukthankar, R., & Hebert, M. (2005). Efficient visual event detection using volumetric features. In Tenth IEEE international conference on computer vision (ICCV\u201905) (pp. 166\u2013173). IEEE. https:\/\/doi.org\/10.1109\/iccv.2005.85 .","DOI":"10.1109\/iccv.2005.85"},{"key":"1248_CR35","doi-asserted-by":"publisher","unstructured":"Kellokumpu, V., Zhao, G., & Pietikainen, M. (2008). Human activity recognition using a dynamic texture based method. In Proceedings of the British machine vision conference (pp. 88.1\u201388.10). British Machine Vision Association. https:\/\/doi.org\/10.5244\/c.22.88 .","DOI":"10.5244\/c.22.88"},{"key":"1248_CR36","unstructured":"Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. http:\/\/arxiv.org\/abs\/1412.6980 ."},{"key":"1248_CR37","unstructured":"Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. In Advances in neural information processing systems (NIPS) (pp. 1\u20139)."},{"issue":"2\u20133","key":"1248_CR38","doi-asserted-by":"publisher","first-page":"107","DOI":"10.1007\/s11263-005-1838-7","volume":"64","author":"I Laptev","year":"2005","unstructured":"Laptev, I. (2005). On space\u2013time interest points. International Journal of Computer Vision,64(2\u20133), 107\u2013123. https:\/\/doi.org\/10.1007\/s11263-005-1838-7 .","journal-title":"International Journal of Computer Vision"},{"key":"1248_CR39","doi-asserted-by":"publisher","unstructured":"Le, Q. V., Zou, W. Y., Yeung, S. Y., & Ng, A. Y. (2011). Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In IEEE International conference on computer vision and pattern recognition (pp. 3361\u20133368). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2011.5995496 .","DOI":"10.1109\/cvpr.2011.5995496"},{"key":"1248_CR40","doi-asserted-by":"crossref","unstructured":"Li, C., Chen, C., Carlson, D., & Carin, L. (2016). Preconditioned stochastic gradient langevin dynamics for deep neural networks. In Proceedings of the thirtieth association for the advancement of artificial intelligence (AAAI) conference on artificial intelligence (pp. 1788\u20131794).","DOI":"10.1609\/aaai.v30i1.10200"},{"issue":"2","key":"1248_CR42","doi-asserted-by":"publisher","first-page":"451","DOI":"10.1016\/S0031-3203(02)00060-2","volume":"36","author":"A Likas","year":"2003","unstructured":"Likas, A., Vlassis, N., & Verbeek, J. (2003). The global k-means clustering algorithm. Pattern Recognition,36(2), 451\u2013461. https:\/\/doi.org\/10.1016\/S0031-3203(02)00060-2 .","journal-title":"Pattern Recognition"},{"key":"1248_CR43","doi-asserted-by":"publisher","DOI":"10.1016\/j.image.2018.09.003","author":"C-Y Ma","year":"2018","unstructured":"Ma, C.-Y., Chen, M.-H., Kira, Z., & AlRegib, G. (2018). TS-LSTM and temporal-inception: Exploiting spatiotemporal dynamics for activity recognition. Signal Processing: Image Communication. https:\/\/doi.org\/10.1016\/j.image.2018.09.003 .","journal-title":"Signal Processing: Image Communication"},{"issue":"7","key":"1248_CR44","doi-asserted-by":"publisher","first-page":"971","DOI":"10.1109\/TPAMI.2002.1017623","volume":"24","author":"T Ojala","year":"2002","unstructured":"Ojala, T., Pietikainen, M., & Maenpaa, T. (2002). Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence,24(7), 971\u2013987. https:\/\/doi.org\/10.1109\/TPAMI.2002.1017623 .","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1248_CR45","doi-asserted-by":"publisher","DOI":"10.23915\/distill.00007","author":"C Olah","year":"2017","unstructured":"Olah, C., Mordvintsev, A., & Schubert, L. (2017). Feature visualization. Distill. https:\/\/doi.org\/10.23915\/distill.00007 .","journal-title":"Distill"},{"key":"1248_CR46","unstructured":"Pascanu, R., Mikolov, T., & Bengio, Y. (2013). On the difficulty of training recurrent neural networks. In Proceedings of the 30th international conference on machine learning (pp. 1310\u20131318)."},{"key":"1248_CR47","doi-asserted-by":"publisher","first-page":"581","DOI":"10.1007\/978-3-319-10602-1_38","volume-title":"Computer Vision \u2013 ECCV 2014","author":"Xiaojiang Peng","year":"2014","unstructured":"Peng, X., Zou, C., Qiao, Y., & Peng, Q. (2014). Action recognition with stacked fisher vectors. In European conference on computer vision (pp. 581\u2013595). https:\/\/doi.org\/10.1007\/978-3-319-10602-1_38 ."},{"key":"1248_CR48","doi-asserted-by":"publisher","first-page":"143","DOI":"10.1007\/978-3-642-15561-1_11","volume-title":"Computer Vision \u2013 ECCV 2010","author":"Florent Perronnin","year":"2010","unstructured":"Perronnin, F., S\u00e1nchez, J., & Mensink, T. (2010). Improving the fisher kernel for large-scale image classification. In European conference on computer vision (pp. 143\u2013156). https:\/\/doi.org\/10.1007\/978-3-642-15561-1_11 ."},{"key":"1248_CR49","unstructured":"Pirsiavash, H., Ramanan, D., & Fowlkes, C. C. (2009). Bilinear classifiers for visual recognition. In Neural information processing systems (NIPS) (pp. 1482\u20131490)."},{"key":"1248_CR51","doi-asserted-by":"publisher","unstructured":"Rodriguez, M. D., Ahmed, J., & Shah, M. (2008). Action MACH a spatio-temporal maximum average correlation height filter for action recognition. In IEEE conference on computer vision and pattern recognition (pp. 1\u20138). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2008.4587727 .","DOI":"10.1109\/cvpr.2008.4587727"},{"key":"1248_CR52","doi-asserted-by":"publisher","unstructured":"Shechtman, E., & Irani, M. (2005). Space\u2013time behavior based correlation. In IEEE computer society conference on computer vision and pattern recognition (CVPR\u201905) (Vol. 1, pp. 405\u2013412). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2005.328 .","DOI":"10.1109\/cvpr.2005.328"},{"key":"1248_CR53","unstructured":"Simonyan, K., & Zisserman, A. (2014). Two-stream convolutional networks for action recognition in videos. In Advances in neural information processing systems (pp. 1\u20139)."},{"issue":"3","key":"1248_CR54","doi-asserted-by":"publisher","first-page":"199","DOI":"10.1023\/B:STCO.0000035301.49549.88","volume":"14","author":"AJ Smola","year":"2004","unstructured":"Smola, A. J., & Sch\u00f6lkopf, B. (2004). A tutorial on support vector regression. Statistics and Computing,14(3), 199\u2013222. https:\/\/doi.org\/10.1023\/B:STCO.0000035301.49549.88 .","journal-title":"Statistics and Computing"},{"key":"1248_CR55","unstructured":"Srivastava, N., Mansimov, E., & Slakhudinov, R. (2015). Unsupervised learning of video representations using LSTMs. In Proceedings of the 32nd international conference on machine learning (pp. 843\u2013852)."},{"issue":"3","key":"1248_CR56","doi-asserted-by":"publisher","first-page":"1826","DOI":"10.1137\/130950367","volume":"7","author":"M Storath","year":"2014","unstructured":"Storath, M., & Weinmann, A. (2014). Fast partitioning of vector-valued images. SIAM Journal on Imaging Sciences,7(3), 1826\u20131852. https:\/\/doi.org\/10.1137\/130950367 .","journal-title":"SIAM Journal on Imaging Sciences"},{"key":"1248_CR57","doi-asserted-by":"publisher","unstructured":"Sun, L., Jia, K., Yeung, D.-Y., & Shi, B. E. (2015). Human action recognition using factorized spatio-temporal convolutional networks. In 2015 IEEE international conference on computer vision (ICCV) (pp. 4597\u20134605). IEEE. https:\/\/doi.org\/10.1109\/iccv.2015.522 .","DOI":"10.1109\/iccv.2015.522"},{"key":"1248_CR58","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Ioffe, S., Vanhoucke, V., & Alemi, A. A. (2017). Inception-v4, Inception-ResNet and the impact of residual connections on learning. In Thirty-first association for the advancement of artificial intelligence (AAAI) (pp. 4278\u20134284).","DOI":"10.1609\/aaai.v31i1.11231"},{"key":"1248_CR59","doi-asserted-by":"publisher","unstructured":"Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., & Wojna, Z. (2016). Rethinking the inception architecture for computer vision. In IEEE conference on computer vision and pattern recognition (CVPR) (pp. 2818\u20132826). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2016.308 .","DOI":"10.1109\/cvpr.2016.308"},{"key":"1248_CR60","doi-asserted-by":"publisher","unstructured":"Tran, D., Bourdev, L., Fergus, R., Torresani, L., & Paluri, M. (2015). Learning spatiotemporal features with 3D convolutional networks. In 2015 IEEE international conference on computer vision (ICCV) (pp. 4489\u20134497). IEEE. https:\/\/doi.org\/10.1109\/iccv.2015.510 .","DOI":"10.1109\/iccv.2015.510"},{"key":"1248_CR61","doi-asserted-by":"publisher","unstructured":"Tran, D., Wang, H., Torresani, L., Ray, J., LeCun, Y., & Paluri, M. (2018). A closer look at spatiotemporal convolutions for action recognition. In IEEE\/CVF conference on computer vision and pattern recognition (pp. 6450\u20136459). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2018.00675 .","DOI":"10.1109\/cvpr.2018.00675"},{"issue":"6","key":"1248_CR62","doi-asserted-by":"publisher","first-page":"1510","DOI":"10.1109\/TPAMI.2017.2712608","volume":"40","author":"G Varol","year":"2018","unstructured":"Varol, G., Laptev, I., & Schmid, C. (2018). Long-term temporal convolutions for action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence,40(6), 1510\u20131517. https:\/\/doi.org\/10.1109\/TPAMI.2017.2712608 .","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"3","key":"1248_CR63","doi-asserted-by":"publisher","first-page":"271","DOI":"10.1023\/A:1020874308076","volume":"50","author":"LA Vese","year":"2002","unstructured":"Vese, L. A., & Chan, T. F. (2002). A multiphase level set framework for image segmentation using the Mumford and Shah model. International Journal of Computer Vision,50(3), 271\u2013293. https:\/\/doi.org\/10.1023\/A:1020874308076 .","journal-title":"International Journal of Computer Vision"},{"issue":"1","key":"1248_CR64","doi-asserted-by":"publisher","first-page":"60","DOI":"10.1007\/s11263-012-0594-8","volume":"103","author":"H Wang","year":"2013","unstructured":"Wang, H., Kl\u00e4ser, A., Schmid, C., & Liu, C.-L. (2013). Dense trajectories and motion boundary descriptors for action recognition. International Journal of Computer Vision,103(1), 60\u201379. https:\/\/doi.org\/10.1007\/s11263-012-0594-8 .","journal-title":"International Journal of Computer Vision"},{"key":"1248_CR65","doi-asserted-by":"publisher","unstructured":"Wang, H., & Schmid, C. (2013). Action recognition with improved trajectories. In 2013 IEEE international conference on computer vision (pp. 3551\u20133558). IEEE. https:\/\/doi.org\/10.1109\/iccv.2013.441 .","DOI":"10.1109\/iccv.2013.441"},{"key":"1248_CR66","doi-asserted-by":"publisher","unstructured":"Wang, L., Li, W., & Van Gool, L. (2018a). Appearance- and-relation networks for video classification. In IEEE\/CVF conference on computer vision and pattern recognition (pp. 1430\u20131439). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2018.00155 .","DOI":"10.1109\/cvpr.2018.00155"},{"key":"1248_CR67","doi-asserted-by":"publisher","unstructured":"Wang, L., Qiao, Y., & Tang, X. (2015). Action recognition with trajectory-pooled deep-convolutional descriptors. In 2015 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 4305\u20134314). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2015.7299059 .","DOI":"10.1109\/cvpr.2015.7299059"},{"issue":"3","key":"1248_CR68","doi-asserted-by":"publisher","first-page":"254","DOI":"10.1007\/s11263-015-0859-0","volume":"119","author":"L Wang","year":"2016","unstructured":"Wang, L., Qiao, Y., & Tang, X. (2016a). MoFAP: A multi-level representation for action recognition. International Journal of Computer Vision,119(3), 254\u2013271. https:\/\/doi.org\/10.1007\/s11263-015-0859-0 .","journal-title":"International Journal of Computer Vision"},{"key":"1248_CR71","doi-asserted-by":"publisher","first-page":"20","DOI":"10.1007\/978-3-319-46484-8_2","volume-title":"Computer Vision \u2013 ECCV 2016","author":"Limin Wang","year":"2016","unstructured":"Wang L., Xiong Y., Wang Z., Qiao Y., Lin D., Tang X., & Van Gool L. (2016c). Temporal segment networks: towards good practices for deep action recognition. In European conference on computer vision (pp. 20\u201336). https:\/\/doi.org\/10.1007\/978-3-319-46484-8_2 ."},{"key":"1248_CR72","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2018.2868668","author":"L Wang","year":"2018","unstructured":"Wang, L., Xiong, Y., Wang, Z., Qiao, Y., Lin, D., Tang, X., et al. (2018b). Temporal segment networks for action recognition in videos. IEEE Transactions on Pattern Analysis and Machine Intelligence. https:\/\/doi.org\/10.1109\/TPAMI.2018.2868668 .","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1248_CR69","doi-asserted-by":"publisher","unstructured":"Wang, Y., Long, M., Wang, J., & Yu, P. S. (2017). Spatiotemporal pyramid network for video action recognition. In IEEE conference on computer vision and pattern recognition (CVPR) (pp. 2097\u20132106). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2017.226 .","DOI":"10.1109\/cvpr.2017.226"},{"key":"1248_CR70","doi-asserted-by":"publisher","unstructured":"Wang Y., Song J., Wang L., Gool L., & Hilliges O. (2016b). Two-stream SR-CNNs for action recognition in videos. In Proceedings of the British machine vision conference 2016 (pp. 108.1\u2013108.12). British Machine Vision Association. https:\/\/doi.org\/10.5244\/c.30.108 .","DOI":"10.5244\/c.30.108"},{"key":"1248_CR73","doi-asserted-by":"publisher","first-page":"650","DOI":"10.1007\/978-3-540-88688-4_48","volume-title":"Lecture Notes in Computer Science","author":"Geert Willems","year":"2008","unstructured":"Willems, G., Tuytelaars, T., & Van Gool, L. (2008). An efficient dense and scale-invariant spatio-temporal interest point detector. In European conference on computer vision (pp. 650\u2013663). https:\/\/doi.org\/10.1007\/978-3-540-88688-4_48 ."},{"key":"1248_CR74","doi-asserted-by":"publisher","unstructured":"Xie, S., Girshick, R., Dollar, P., Tu, Z., & He, K. (2017). Aggregated residual transformations for deep neural networks. In 2017 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 5987\u20135995). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2017.634 .","DOI":"10.1109\/cvpr.2017.634"},{"key":"1248_CR75","doi-asserted-by":"publisher","first-page":"318","DOI":"10.1007\/978-3-030-01267-0_19","volume-title":"Computer Vision \u2013 ECCV 2018","author":"Saining Xie","year":"2018","unstructured":"Xie, S., Sun, C., Huang, J., Tu, Z., & Murphy, K. (2018). Rethinking spatiotemporal feature learning: Speed\u2013accuracy trade-offs in video classification. In European conference on computer vision (pp. 318\u2013335). https:\/\/doi.org\/10.1007\/978-3-030-01267-0_19 ."},{"issue":"5","key":"1248_CR76","doi-asserted-by":"publisher","first-page":"1120","DOI":"10.1109\/TIP.2005.864231","volume":"15","author":"L Yatziv","year":"2006","unstructured":"Yatziv, L., & Sapiro, G. (2006). Fast image and video colorization using chrominance blending. IEEE Transactions on Image Processing,15(5), 1120\u20131129. https:\/\/doi.org\/10.1109\/TIP.2005.864231 .","journal-title":"IEEE Transactions on Image Processing"},{"key":"1248_CR77","doi-asserted-by":"publisher","unstructured":"Yue-Hei Ng, J., Hausknecht, M., Vijayanarasimhan, S., Vinyals, O., Monga, R., & Toderici, G. (2015). Beyond short snippets: Deep networks for video classification. In 2015 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 4694\u20134702). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2015.7299101 .","DOI":"10.1109\/cvpr.2015.7299101"},{"key":"1248_CR78","unstructured":"Zha, S., Luisier, F., Andrews, W., Srivastava, N., & Salakhutdinov, R. (2015). Exploiting image-trained CNN architectures for unconstrained video classification. http:\/\/arxiv.org\/abs\/1503.04144 ."},{"issue":"6","key":"1248_CR79","doi-asserted-by":"publisher","first-page":"915","DOI":"10.1109\/TPAMI.2007.1110","volume":"29","author":"G Zhao","year":"2007","unstructured":"Zhao, G., & Pietikainen, M. (2007). Dynamic texture recognition using local binary patterns with an application to facial expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence,29(6), 915\u2013928. https:\/\/doi.org\/10.1109\/TPAMI.2007.1110 .","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1248_CR80","doi-asserted-by":"publisher","unstructured":"Zhu, W., Hu, J., Sun, G., Cao, X., & Qiao, Y. (2016). A key volume mining deep framework for action recognition. In IEEE conference on computer vision and pattern recognition (CVPR) (pp. 1991\u20131999). IEEE. https:\/\/doi.org\/10.1109\/cvpr.2016.219 .","DOI":"10.1109\/cvpr.2016.219"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-019-01248-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11263-019-01248-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-019-01248-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,2]],"date-time":"2022-10-02T10:24:20Z","timestamp":1664706260000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11263-019-01248-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,10,22]]},"references-count":76,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2020,2]]}},"alternative-id":["1248"],"URL":"https:\/\/doi.org\/10.1007\/s11263-019-01248-3","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"type":"print","value":"0920-5691"},{"type":"electronic","value":"1573-1405"}],"subject":[],"published":{"date-parts":[[2019,10,22]]},"assertion":[{"value":"17 January 2019","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"27 September 2019","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 October 2019","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Compliance with Ethical Standards"}},{"value":"The authors declare that they have no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}