{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,20]],"date-time":"2025-10-20T10:21:46Z","timestamp":1760955706418,"version":"3.41.0"},"reference-count":49,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2017,2,15]],"date-time":"2017-02-15T00:00:00Z","timestamp":1487116800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"name":"None","award":["None"],"award-info":[{"award-number":["None"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Multimed Info Retr"],"published-print":{"date-parts":[[2017,3]]},"DOI":"10.1007\/s13735-016-0117-4","type":"journal-article","created":{"date-parts":[[2017,2,15]],"date-time":"2017-02-15T05:57:18Z","timestamp":1487138238000},"page":"85-98","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":18,"title":["Learning hierarchical video representation for action recognition"],"prefix":"10.1007","volume":"6","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1185-5365","authenticated-orcid":false,"given":"Qing","family":"Li","sequence":"first","affiliation":[]},{"given":"Zhaofan","family":"Qiu","sequence":"additional","affiliation":[]},{"given":"Ting","family":"Yao","sequence":"additional","affiliation":[]},{"given":"Tao","family":"Mei","sequence":"additional","affiliation":[]},{"given":"Yong","family":"Rui","sequence":"additional","affiliation":[]},{"given":"Jiebo","family":"Luo","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2017,2,15]]},"reference":[{"key":"117_CR1","doi-asserted-by":"crossref","unstructured":"Brox T, Bruhn A, Papenberg N, Weickert J (2004) High accuracy optical flow estimation based on a theory for warping. In: European conference on computer vision","DOI":"10.1007\/978-3-540-24673-2_3"},{"key":"117_CR2","doi-asserted-by":"crossref","unstructured":"Doll\u00e1r P, Rabaud V, Cottrell G, Belongie S (2005) Behavior recognition via sparse spatio-temporal features. In: 2005 IEEE international workshop on visual surveillance and performance evaluation of tracking and surveillance, IEEE. pp 65\u201372","DOI":"10.1109\/VSPETS.2005.1570899"},{"key":"117_CR3","doi-asserted-by":"crossref","unstructured":"Donahue J, Hendricks LA, Guadarrama S, Rohrbach M, Venugopalan S, Saenko K, Darrell T (2014) Long-term recurrent convolutional networks for visual recognition and description. arXiv preprint: arXiv:1411.4389","DOI":"10.21236\/ADA623249"},{"key":"117_CR4","doi-asserted-by":"crossref","unstructured":"Graves A, Mohamed A-r, Hinton G (2013) Speech recognition with deep recurrent neural networks. In: 2013 IEEE international conference on acoustics, speech and signal processing, IEEE. pp 6645\u20136649","DOI":"10.1109\/ICASSP.2013.6638947"},{"key":"117_CR5","doi-asserted-by":"crossref","unstructured":"Hoai M, Zisserman A (2014) Improving human action recognition using score distribution and ranking. In: Asian conference on computer vision","DOI":"10.1007\/978-3-319-16814-2_1"},{"issue":"8","key":"117_CR6","doi-asserted-by":"crossref","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780","journal-title":"Neural Comput"},{"issue":"1","key":"117_CR7","doi-asserted-by":"crossref","first-page":"33","DOI":"10.1007\/s00138-013-0567-0","volume":"25","author":"I-H Jhuo","year":"2014","unstructured":"Jhuo I-H, Ye G, Gao S, Liu D, Jiang Y-G, Lee D, Chang S-F (2014) Discovering joint audio-visual codewords for video event detection. Mach Vis Appl 25(1):33\u201347","journal-title":"Mach Vis Appl"},{"key":"117_CR8","doi-asserted-by":"crossref","unstructured":"Jia Y, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, Guadarrama S, Darrell T (2014) Caffe: Convolutional architecture for fast feature embedding. arXiv preprint: arXiv:1408.5093","DOI":"10.1145\/2647868.2654889"},{"key":"117_CR9","doi-asserted-by":"crossref","unstructured":"Jiang Y-G, Ye G, Chang S-F, Ellis D, Loui AC (2011) Consumer video understanding: a benchmark database and an evaluation of human and machine performance. In: Proceedings of ACM international conference on multimedia retrieval","DOI":"10.1145\/1991996.1992025"},{"key":"117_CR10","doi-asserted-by":"crossref","unstructured":"Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Fei-Fei L (2014) Large-scale video classification with convolutional neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR.2014.223"},{"key":"117_CR11","doi-asserted-by":"crossref","unstructured":"Klaser A, Marsza\u0142ek M, Schmid C (2008) A spatio-temporal descriptor based on 3d-gradients. In: BMVC 2008-19th British machine vision conference, British Machine Vision Association, pp 275:1\u201310","DOI":"10.5244\/C.22.99"},{"key":"117_CR12","unstructured":"Krizhevsky A, Sutskever I, Hinton GE (2012) Imagenet classification with deep convolutional neural networks. In: Advances in neural information processing systems"},{"key":"117_CR13","doi-asserted-by":"crossref","unstructured":"Kuehne H, Jhuang H, Garrote E, Poggio T, Serre T (2011) HMDB: a large video database for human motion recognition. In: Proceedings of the IEEE international conference on computer vision","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"117_CR14","unstructured":"Lan Z, Lin M, Li X, Hauptmann AG, Raj B (2015) Beyond gaussian pyramid: multi-skip feature stacking for action recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition"},{"key":"117_CR15","doi-asserted-by":"crossref","unstructured":"Laptev I, Lindeberg T (2003) Space-time interest points. In: Proceedings of the IEEE international conference on computer vision","DOI":"10.1109\/ICCV.2003.1238378"},{"key":"117_CR16","doi-asserted-by":"crossref","unstructured":"Li Q, Qiu Z, Yao T, Mei T, Rui Y, Luo J (2016) Action recognition by learning deep multi-granular spatio-temporal video representation. In: Proceedings of ACM international conference on multimedia retrieval","DOI":"10.1145\/2911996.2912001"},{"issue":"11","key":"117_CR17","doi-asserted-by":"crossref","first-page":"1499","DOI":"10.1109\/TCSVT.2008.2005597","volume":"18","author":"W Li","year":"2008","unstructured":"Li W, Zhang Z, Liu Z (2008) Expandable data-driven graphical modeling of human actions based on salient postures. IEEE Trans Circuits Syst Video Technol 18(11):1499\u20131510","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"issue":"3","key":"117_CR18","doi-asserted-by":"crossref","first-page":"233","DOI":"10.1007\/s11263-014-0723-7","volume":"109","author":"AJ Ma","year":"2014","unstructured":"Ma AJ, Yuen PC (2014) Reduced analytic dependency modeling: Robust fusion for visual recognition. Int J Comput Vis 109(3):233\u2013251","journal-title":"Int J Comput Vis"},{"issue":"5","key":"117_CR19","first-page":"907","volume":"7","author":"Y-F Ma","year":"2005","unstructured":"Ma Y-F, Hua X-S, Lu L, Zhang H-J (2005) A generic framework of user attention model and its application in video summarization. IEEE Trans MM 7(5):907\u2013919","journal-title":"IEEE Trans MM"},{"key":"117_CR20","unstructured":"Ng JY-H, Hausknecht M, Vijayanarasimhan S, Vinyals O, Monga R, Toderici G (2015) Beyond short snippets deep networks for video classification. In: Proceedings of the IEEE conference on computer vision and pattern recognition"},{"issue":"2","key":"117_CR21","first-page":"296","volume":"15","author":"C-W Ngo","year":"2005","unstructured":"Ngo C-W, Ma Y-F, Zhang H-J (2005) Video summarization and scene detection by graph modeling. IEEE Trans CSVT 15(2):296\u2013305","journal-title":"IEEE Trans CSVT"},{"key":"117_CR22","unstructured":"Pan Y, Li Y, Yao T, Mei T, Li H, Rui Y (2016) Learning deep intrinsic video representation by exploring temporal coherence and graph structure. In: International joint conference on artificial intelligence"},{"key":"117_CR23","doi-asserted-by":"crossref","unstructured":"Pan Y, Mei T, Yao T, Li H, Rui Y (2016) Jointly modeling embedding and translation to bridge video and language. In: Proceedings of the IEEE conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR.2016.497"},{"key":"117_CR24","unstructured":"Peng X, Wang L, Wang X, Qiao Y (2014) Bag of visual words and fusion methods for action recognition: Comprehensive study and good practice. arXiv preprint: arXiv:1405.4506"},{"key":"117_CR25","unstructured":"Qiu Z, Li Q, Yao T, Mei T, Rui Y (2015) Msr asia msm at thumos challenge 2015. In: CVPR THUMOS challenge workshop"},{"key":"117_CR26","unstructured":"Qiu Z, Yao T, Mei T (2016) Deep quantization: encoding convolutional activations with deep generative model. arXiv preprint: arXiv:1611.09502"},{"key":"117_CR27","doi-asserted-by":"crossref","unstructured":"Scovanner P, Ali S, Shah M (2007) A 3-dimensional sift descriptor and its application to action recognition. In: ACM international conference on multimedia, ACM, pp 357\u2013360","DOI":"10.1145\/1291233.1291311"},{"key":"117_CR28","unstructured":"Simonyan K, Zisserman A (2014) Two-stream convolutional networks for action recognition in videos. In: Advances in neural information processing systems, pp 568\u2013576"},{"key":"117_CR29","unstructured":"Simonyan K, Zisserman A (2015) Very deep convolutional networks for large-scale image recognition. In: International conference on learning representations"},{"key":"117_CR30","unstructured":"Snoek CGM, van de Sande KEA, de Rooij O et\u00a0al (2008) The mediamill trecvid 2008 semantic video search engine. In: NIST TRECVID workshop"},{"key":"117_CR31","unstructured":"Soomro K, Zamir AR, Shah M (2012) UCF101: A dataset of 101 human action classes from videos in the wild. CRCV-TR-12-01"},{"key":"117_CR32","unstructured":"Srivastava N, Mansimov E, Salakhutdinov R (2015) Unsupervised learning of video representations using LSTMs. In: Proceedings of international conference on machine learning"},{"key":"117_CR33","unstructured":"Sutskever I, Vinyals O, Le QV (2014) Sequence to sequence learning with neural networks. In: Advances in neural information processing systems, pp 3104\u20133112"},{"key":"117_CR34","doi-asserted-by":"crossref","unstructured":"Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A (2015) Going deeper with convolutions. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1\u20139","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"117_CR35","unstructured":"Tran D, Bourdev LD, Fergus R, Torresani L, Paluri M (2014) Learning spatiotemporal features with 3d convolutional networks. arXiv preprint: arXiv:1412.0767"},{"key":"117_CR36","doi-asserted-by":"crossref","unstructured":"Wang H, Schmid C (2013) Action recognition with improved trajectories. In Proceedings of the IEEE international conference on computer vision, pp 3551\u20133558","DOI":"10.1109\/ICCV.2013.441"},{"key":"117_CR37","doi-asserted-by":"crossref","unstructured":"Wang L, Qiao Y, Tang X (2015) Action recognition with trajectory-pooled deep-convolutional descriptors. In: Proceedings of the IEEE conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR.2015.7299059"},{"issue":"1","key":"117_CR38","first-page":"62","volume":"21","author":"X-Y Wei","year":"2011","unstructured":"Wei X-Y, Jiang Y-G, Ngo C-W (2011) Concept-driven multi-modality fusion for video search. IEEE Trans CSVT 21(1):62\u201373","journal-title":"IEEE Trans CSVT"},{"issue":"10","key":"117_CR39","doi-asserted-by":"crossref","first-page":"1550","DOI":"10.1109\/5.58337","volume":"78","author":"PJ Werbos","year":"1990","unstructured":"Werbos PJ (1990) Backpropagation through time: what it does and how to do it. Proc IEEE 78(10):1550\u20131560","journal-title":"Proc IEEE"},{"key":"117_CR40","doi-asserted-by":"crossref","unstructured":"Wilkins P, Ferguson P, Smeaton AF (2006) Using score distributions for query-time fusion in multimediaretrieval. In: ACM SIGMM international workshop on Multimedia information retrieval","DOI":"10.1145\/1178677.1178687"},{"key":"117_CR41","doi-asserted-by":"crossref","unstructured":"Willems G, Tuytelaars T, Van Gool L (2008) An efficient dense and scale-invariant spatio-temporal interest point detector. In: European conference on computer vision, pp 650\u2013663. Springer,","DOI":"10.1007\/978-3-540-88688-4_48"},{"key":"117_CR42","doi-asserted-by":"crossref","unstructured":"Wu Z, Jiang Y-G, Wang J, Pu J, Xue X (2014) Exploring inter-feature and inter-class relationships with deep neural networks for video classification. In: ACM international conference on multimedia, pp 167\u2013176. ACM","DOI":"10.1145\/2647868.2654931"},{"key":"117_CR43","doi-asserted-by":"crossref","unstructured":"Yao T, Mei T, Ngo C-W, Li S (2013) Annotation for free: video tagging by mining user search behavior. In: ACM international conference on multimedia","DOI":"10.1145\/2502081.2502085"},{"key":"117_CR44","doi-asserted-by":"crossref","unstructured":"Yao T, Mei T, Rui Y (2016) Highlight detection with pairwise deep ranking for first-person video summarization. In: Proceedings of the IEEE conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR.2016.112"},{"issue":"4","key":"117_CR45","doi-asserted-by":"crossref","first-page":"1644","DOI":"10.1109\/TIP.2012.2236341","volume":"22","author":"T Yao","year":"2013","unstructured":"Yao T, Ngo C-W, Mei T (2013) Circular reranking for visual search. IEEE Trans Image Process 22(4):1644\u20131655","journal-title":"IEEE Trans Image Process"},{"key":"117_CR46","doi-asserted-by":"crossref","unstructured":"Ye G, Liu D, Jhuo I-H, Chang S-F (2012) Robust late fusion with rank minimization. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3021\u20133028. IEEE","DOI":"10.1109\/CVPR.2012.6248032"},{"key":"117_CR47","doi-asserted-by":"crossref","unstructured":"Yuan X, Lai W, Mei T, Hua X-S, Wu X-Q, Li S (2006) Automatic video genre categorization using hierarchical svm. In: 2006 International conference on image processing, pp 2905\u20132908. IEEE","DOI":"10.1109\/ICIP.2006.313037"},{"key":"117_CR48","unstructured":"Zaremba W, Sutskever I (2014) Learning to execute. arXiv preprint: arXiv:1410.4615"},{"key":"117_CR49","doi-asserted-by":"crossref","unstructured":"Zha S, Luisier F, Andrews W, Srivastava N, Salakhutdinov R. (2015) Exploiting image-trained CNN architectures for unconstrained video classification. arXiv preprint: arXiv:1503.04144","DOI":"10.5244\/C.29.60"}],"container-title":["International Journal of Multimedia Information Retrieval"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s13735-016-0117-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s13735-016-0117-4\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s13735-016-0117-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,15]],"date-time":"2025-06-15T10:53:20Z","timestamp":1749984800000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s13735-016-0117-4"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,2,15]]},"references-count":49,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2017,3]]}},"alternative-id":["117"],"URL":"https:\/\/doi.org\/10.1007\/s13735-016-0117-4","relation":{},"ISSN":["2192-6611","2192-662X"],"issn-type":[{"type":"print","value":"2192-6611"},{"type":"electronic","value":"2192-662X"}],"subject":[],"published":{"date-parts":[[2017,2,15]]}}}