{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,12]],"date-time":"2026-07-12T02:30:59Z","timestamp":1783823459532,"version":"3.55.0"},"publisher-location":"Cham","reference-count":48,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783030012151","type":"print"},{"value":"9783030012168","type":"electronic"}],"license":[{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018]]},"DOI":"10.1007\/978-3-030-01216-8_43","type":"book-chapter","created":{"date-parts":[[2018,10,8]],"date-time":"2018-10-08T15:10:26Z","timestamp":1539011426000},"page":"713-730","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":342,"title":["ECO: Efficient Convolutional Network for Online Video Understanding"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-2973-4302","authenticated-orcid":false,"given":"Mohammadreza","family":"Zolfaghari","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kamaljeet","family":"Singh","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Thomas","family":"Brox","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2018,10,9]]},"reference":[{"key":"43_CR1","unstructured":"Ballas, N., Yao, L., Pal, C., Courville, A.C.: Delving deeper into convolutional networks for learning video representations. In: ICLR (2016)"},{"key":"43_CR2","doi-asserted-by":"publisher","unstructured":"Bilen, H., Fernando, B., Gavves, E., Vedaldi, A.: Action recognition with dynamic image networks. IEEE Trans. Pattern Anal. Mach. Intell., 1 (2017). https:\/\/doi.org\/10.1109\/TPAMI.2017.2769085","DOI":"10.1109\/TPAMI.2017.2769085"},{"key":"43_CR3","doi-asserted-by":"publisher","unstructured":"Bilen, H., Fernando, B., Gavves, E., Vedaldi, A., Gould, S.: Dynamic image networks for action recognition. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3034\u20133042, June 2016. https:\/\/doi.org\/10.1109\/CVPR.2016.331","DOI":"10.1109\/CVPR.2016.331"},{"key":"43_CR4","doi-asserted-by":"crossref","unstructured":"Carreira, J., Zisserman, A.: Quo vadis, action recognition? A new model and the kinetics dataset. CoRR abs\/1705.07750 (2017). http:\/\/arxiv.org\/abs\/1705.07750","DOI":"10.1109\/CVPR.2017.502"},{"key":"43_CR5","unstructured":"Diba, A., et al.: Temporal 3D ConvNets: new architecture and transfer learning for video classification. CoRR abs\/1711.08200 (2017). http:\/\/arxiv.org\/abs\/1711.08200"},{"key":"43_CR6","doi-asserted-by":"crossref","unstructured":"Donahue, J., et al.: Long-term recurrent convolutional networks for visual recognition and description. In: CVPR (2015)","DOI":"10.21236\/ADA623249"},{"key":"43_CR7","doi-asserted-by":"publisher","unstructured":"Feichtenhofer, C., Pinz, A., Wildes, R.P.: Spatiotemporal multiplier networks for video action recognition. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 7445\u20137454, July 2017. https:\/\/doi.org\/10.1109\/CVPR.2017.787","DOI":"10.1109\/CVPR.2017.787"},{"key":"43_CR8","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C., Pinz, A., Zisserman, A.: Convolutional two-stream network fusion for video action recognition. CoRR abs\/1604.06573 (2016). http:\/\/arxiv.org\/abs\/1604.06573","DOI":"10.1109\/CVPR.2016.213"},{"key":"43_CR9","doi-asserted-by":"crossref","unstructured":"Gan, Z., et al.: Semantic compositional networks for visual captioning. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.127"},{"key":"43_CR10","doi-asserted-by":"crossref","unstructured":"Goyal, R., et al.: The \u201csomething something\u201d video database for learning and evaluating visual common sense. CoRR abs\/1706.04261 (2017). http:\/\/arxiv.org\/abs\/1706.04261","DOI":"10.1109\/ICCV.2017.622"},{"key":"43_CR11","doi-asserted-by":"publisher","unstructured":"Guadarrama, S., et al.: YouTube2Text: recognizing and describing arbitrary activities using semantic hierarchies and zero-shot recognition. In: 2013 IEEE International Conference on Computer Vision, pp. 2712\u20132719, December 2013. https:\/\/doi.org\/10.1109\/ICCV.2013.337","DOI":"10.1109\/ICCV.2013.337"},{"key":"43_CR12","doi-asserted-by":"crossref","unstructured":"Hara, K., Kataoka, H., Satoh, Y.: Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet? CoRR abs\/1711.09577 (2017). http:\/\/arxiv.org\/abs\/1711.09577","DOI":"10.1109\/CVPR.2018.00685"},{"key":"43_CR13","doi-asserted-by":"crossref","unstructured":"Heilbron, F.C., Escorcia, V., Ghanem, B., Niebles, J.C.: ActivityNet: a large-scale video benchmark for human activity understanding. In: CVPR, pp. 961\u2013970. IEEE Computer Society (2015). http:\/\/dblp.uni-trier.de\/db\/conf\/cvpr\/cvpr2015.html#HeilbronEGN15","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"43_CR14","doi-asserted-by":"publisher","unstructured":"Hori, C., et al.: Attention-based multimodal fusion for video description. In: 2017 IEEE International Conference on Computer Vision (ICCV), pp. 4203\u20134212, October 2017. https:\/\/doi.org\/10.1109\/ICCV.2017.450","DOI":"10.1109\/ICCV.2017.450"},{"issue":"10","key":"43_CR15","doi-asserted-by":"publisher","first-page":"1374","DOI":"10.1109\/LSP.2016.2598878","volume":"23","author":"B Hu","year":"2016","unstructured":"Hu, B., Yuan, J., Wu, Y.: Discriminative action states discovery for online action recognition. IEEE Signal Process. Lett. 23(10), 1374\u20131378 (2016). https:\/\/doi.org\/10.1109\/LSP.2016.2598878","journal-title":"IEEE Signal Process. Lett."},{"key":"43_CR16","doi-asserted-by":"crossref","unstructured":"Ilg, E., Mayer, N., Saikia, T., Keuper, M., Dosovitskiy, A., Brox, T.: FlowNet 2.0: evolution of optical flow estimation with deep networks. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. http:\/\/lmb.informatik.uni-freiburg.de\/\/Publications\/2017\/IMKDB17","DOI":"10.1109\/CVPR.2017.179"},{"key":"43_CR17","unstructured":"Ioffe, S., Szegedy, C.: Batch normalization: accelerating deep network training by reducing internal covariate shift. In: Proceedings of the 32nd International Conference on International Conference on Machine Learning - Volume 37, ICML 2015, pp. 448\u2013456. JMLR.org (2015). http:\/\/dl.acm.org\/citation.cfm?id=3045118.3045167"},{"key":"43_CR18","doi-asserted-by":"publisher","unstructured":"Kantorov, V., Laptev, I.: Efficient feature extraction, encoding, and classification for action recognition. In: 2014 IEEE Conference on Computer Vision and Pattern Recognition, pp. 2593\u20132600, June 2014. https:\/\/doi.org\/10.1109\/CVPR.2014.332","DOI":"10.1109\/CVPR.2014.332"},{"key":"43_CR19","doi-asserted-by":"publisher","unstructured":"Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., Fei-Fei, L.: Large-scale video classification with convolutional neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2014, pp. 1725\u20131732. IEEE Computer Society, Washington (2014). https:\/\/doi.org\/10.1109\/CVPR.2014.223","DOI":"10.1109\/CVPR.2014.223"},{"key":"43_CR20","unstructured":"Kay, W., et al.: The kinetics human action video dataset. CoRR abs\/1705.06950 (2017). http:\/\/arxiv.org\/abs\/1705.06950"},{"key":"43_CR21","doi-asserted-by":"crossref","unstructured":"Kuehne, H., Jhuang, H., Garrote, E., Poggio, T., Serre, T.: HMDB: a large video database for human motion recognition. In: Proceedings of the International Conference on Computer Vision (ICCV) (2011)","DOI":"10.1109\/ICCV.2011.6126543"},{"issue":"C","key":"43_CR22","doi-asserted-by":"publisher","first-page":"15","DOI":"10.1016\/j.cviu.2014.08.001","volume":"129","author":"I Kviatkovsky","year":"2014","unstructured":"Kviatkovsky, I., Rivlin, E., Shimshoni, I.: Online action recognition using covariance of shape and motion. Comput. Vis. Image Underst. 129(C), 15\u201326 (2014). https:\/\/doi.org\/10.1016\/j.cviu.2014.08.001","journal-title":"Comput. Vis. Image Underst."},{"key":"43_CR23","doi-asserted-by":"crossref","unstructured":"Lavie, A., Agarwal, A.: METEOR: An automatic metric for MT evaluation with high levels of correlation with human judgments. In: Proceedings of the Second Workshop on Statistical Machine Translation, StatMT 2007, pp. 228\u2013231. Association for Computational Linguistics, Stroudsburg (2007). http:\/\/dl.acm.org\/citation.cfm?id=1626355.1626389","DOI":"10.3115\/1626355.1626389"},{"key":"43_CR24","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"833","DOI":"10.1007\/978-3-319-46466-4_50","volume-title":"Computer Vision \u2013 ECCV 2016","author":"G Lev","year":"2016","unstructured":"Lev, G., Sadeh, G., Klein, B., Wolf, L.: RNN fisher vectors for action recognition and image annotation. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9910, pp. 833\u2013850. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46466-4_50"},{"issue":"C","key":"43_CR25","doi-asserted-by":"publisher","first-page":"41","DOI":"10.1016\/j.cviu.2017.10.011","volume":"166","author":"Z Li","year":"2018","unstructured":"Li, Z., Gavrilyuk, K., Gavves, E., Jain, M., Snoek, C.G.: VideoLSTM convolves, attends and flows for action recognition. Comput. Vis. Image Underst. 166(C), 41\u201350 (2018). https:\/\/doi.org\/10.1016\/j.cviu.2017.10.011","journal-title":"Comput. Vis. Image Underst."},{"key":"43_CR26","unstructured":"Ng, J.Y.H., Hausknecht, M.J., Vijayanarasimhan, S., Vinyals, O., Monga, R., Toderici, G.: Beyond short snippets: deep networks for video classification. In: CVPR, pp. 4694\u20134702. IEEE Computer Society (2015). http:\/\/dblp.uni-trier.de\/db\/conf\/cvpr\/cvpr2015.html#NgHVVMT15"},{"key":"43_CR27","doi-asserted-by":"publisher","unstructured":"Papineni, K., Roukos, S., Ward, T., Zhu, W.J.: BLEU: a method for automatic evaluation of machine translation. In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, ACL 2002, pp. 311\u2013318. Association for Computational Linguistics, Stroudsburg (2002). https:\/\/doi.org\/10.3115\/1073083.1073135","DOI":"10.3115\/1073083.1073135"},{"key":"43_CR28","doi-asserted-by":"crossref","unstructured":"Qiu, Z., Yao, T., Mei, T.: Deep quantization: encoding convolutional activations with deep generative model. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.435"},{"key":"43_CR29","unstructured":"Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recognition in videos. In: Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 1, NIPS 2014, pp. 568\u2013576. MIT Press, Cambridge (2014). http:\/\/dl.acm.org\/citation.cfm?id=2968826.2968890"},{"key":"43_CR30","doi-asserted-by":"publisher","unstructured":"Singh, G., Saha, S., Sapienza, M., Torr, P.H.S., Cuzzolin, F.: Online real-time multiple spatiotemporal action localisation and prediction. In: IEEE International Conference on Computer Vision, ICCV 2017, Venice, Italy, 22\u201329 October 2017, pp. 3657\u20133666 (2017). https:\/\/doi.org\/10.1109\/ICCV.2017.393","DOI":"10.1109\/ICCV.2017.393"},{"key":"43_CR31","doi-asserted-by":"crossref","unstructured":"Soomro, K., Idrees, H., Shah, M.: Predicting the where and what of actors and actions through online action localization. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016","DOI":"10.1109\/CVPR.2016.290"},{"key":"43_CR32","unstructured":"Soomro, K., Zamir, A.R., Shah, M.: UCF101: a dataset of 101 human actions classes from videos in the wild. CoRR abs\/1212.0402 (2012). http:\/\/arxiv.org\/abs\/1212.0402"},{"key":"43_CR33","unstructured":"Tran, D., Bourdev, L.D., Fergus, R., Torresani, L., Paluri, M.: C3D: generic features for video analysis. CoRR abs\/1412.0767 (2014). http:\/\/arxiv.org\/abs\/1412.0767"},{"key":"43_CR34","unstructured":"Tran, D., Ray, J., Shou, Z., Chang, S., Paluri, M.: ConvNet architecture search for spatiotemporal feature learning. CoRR abs\/1708.05038 (2017). http:\/\/arxiv.org\/abs\/1708.05038"},{"key":"43_CR35","doi-asserted-by":"crossref","unstructured":"Tran, D., Wang, H., Torresani, L., Ray, J., LeCun, Y., Paluri, M.: A closer look at spatiotemporal convolutions for action recognition. CoRR abs\/1711.11248 (2017). http:\/\/arxiv.org\/abs\/1711.11248","DOI":"10.1109\/CVPR.2018.00675"},{"key":"43_CR36","unstructured":"Varol, G., Laptev, I., Schmid, C.: Long-term temporal convolutions for action recognition. CoRR abs\/1604.04494 (2016). http:\/\/arxiv.org\/abs\/1604.04494"},{"key":"43_CR37","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Zitnick, C.L., Parikh, D.: CIDEr: consensus-based image description evaluation. In: CVPR, pp. 4566\u20134575. IEEE Computer Society (2015). http:\/\/dblp.uni-trier.de\/db\/conf\/cvpr\/cvpr2015.html#VedantamZP15","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"43_CR38","doi-asserted-by":"crossref","unstructured":"Venugopalan, S., Rohrbach, M., Donahue, J., Mooney, R., Darrell, T., Saenko, K.: Sequence to sequence - video to text. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV) (2015)","DOI":"10.1109\/ICCV.2015.515"},{"key":"43_CR39","unstructured":"Wang, L., Li, W., Li, W., Gool, L.V.: Appearance-and-relation networks for video classification. CoRR abs\/1711.09125 (2017). http:\/\/arxiv.org\/abs\/1711.09125"},{"key":"43_CR40","unstructured":"Wang, L., et al.: Temporal segment networks for action recognition in videos. CoRR abs\/1705.02953 (2017). http:\/\/arxiv.org\/abs\/1705.02953"},{"key":"43_CR41","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"20","DOI":"10.1007\/978-3-319-46484-8_2","volume-title":"Computer Vision \u2013 ECCV 2016","author":"L Wang","year":"2016","unstructured":"Wang, L., et al.: Temporal segment networks: towards good practices for deep action recognition. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9912, pp. 20\u201336. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46484-8_2"},{"key":"43_CR42","unstructured":"Xu, Z., Yang, Y., Hauptmann, A.G.: A discriminative CNN video representation for event detection. CoRR abs\/1411.4006 (2014). http:\/\/arxiv.org\/abs\/1411.4006"},{"key":"43_CR43","doi-asserted-by":"crossref","unstructured":"Yu, H., Wang, J., Huang, Z., Yang, Y., Xu, W.: Video paragraph captioning using hierarchical recurrent neural networks. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4584\u20134593 (2016)","DOI":"10.1109\/CVPR.2016.496"},{"key":"43_CR44","doi-asserted-by":"crossref","unstructured":"Zhang, B., Wang, L., Wang, Z., Qiao, Y., Wang, H.: Real-time action recognition with enhanced motion vector CNNs. CoRR abs\/1604.07669 (2016). http:\/\/arxiv.org\/abs\/1604.07669","DOI":"10.1109\/CVPR.2016.297"},{"key":"43_CR45","doi-asserted-by":"publisher","unstructured":"Zhang, X., Gao, K., Zhang, Y., Zhang, D., Li, J., Tian, Q.: Task-driven dynamic fusion: reducing ambiguity in video description. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6250\u20136258, July 2017. https:\/\/doi.org\/10.1109\/CVPR.2017.662","DOI":"10.1109\/CVPR.2017.662"},{"key":"43_CR46","unstructured":"Zhou, B., Andonian, A., Torralba, A.: Temporal relational reasoning in videos. CoRR abs\/1711.08496 (2017). http:\/\/arxiv.org\/abs\/1711.08496"},{"key":"43_CR47","unstructured":"Zhu, J., Zou, W., Zhu, Z., Li, L.: End-to-end video-level representation learning for action recognition. CoRR abs\/1711.04161 (2017). http:\/\/arxiv.org\/abs\/1711.04161"},{"key":"43_CR48","doi-asserted-by":"crossref","unstructured":"Zolfaghari, M., Oliveira, G.L., Sedaghat, N., Brox, T.: Chained multi-stream networks exploiting pose, motion, and appearance for action classification and detection. In: IEEE International Conference on Computer Vision (ICCV) (2017). http:\/\/lmb.informatik.uni-freiburg.de\/Publications\/2017\/ZOSB17a","DOI":"10.1109\/ICCV.2017.316"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2018"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-01216-8_43","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,8]],"date-time":"2022-10-08T00:30:06Z","timestamp":1665189006000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-030-01216-8_43"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018]]},"ISBN":["9783030012151","9783030012168"],"references-count":48,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-01216-8_43","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018]]},"assertion":[{"value":"9 October 2018","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Munich","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Germany","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2018","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8 September 2018","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14 September 2018","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"15","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2018","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2018.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"This content has been made available to all.","name":"free","label":"Free to read"}]}}