{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T17:38:53Z","timestamp":1777657133180,"version":"3.51.4"},"publisher-location":"Cham","reference-count":78,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783030012182","type":"print"},{"value":"9783030012199","type":"electronic"}],"license":[{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018]]},"DOI":"10.1007\/978-3-030-01219-9_33","type":"book-chapter","created":{"date-parts":[[2018,10,6]],"date-time":"2018-10-06T14:23:51Z","timestamp":1538835831000},"page":"551-568","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":58,"title":["Online Detection of Action Start in Untrimmed, Streaming Videos"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-7681-2166","authenticated-orcid":false,"given":"Zheng","family":"Shou","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Junting","family":"Pan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jonathan","family":"Chan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kazuyuki","family":"Miyazawa","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hassan","family":"Mansour","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Anthony","family":"Vetro","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xavier","family":"Giro-i-Nieto","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shih-Fu","family":"Chang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2018,10,7]]},"reference":[{"key":"33_CR1","unstructured":"Activitynet challenge 2016. http:\/\/activity-net.org\/challenges\/2016\/ (2016)"},{"key":"33_CR2","doi-asserted-by":"crossref","unstructured":"Aggarwal, J.K., Ryoo, M.S.: Human activity analysis: a review. ACM Comput. Surv. (2011)","DOI":"10.1145\/1922649.1922653"},{"key":"33_CR3","doi-asserted-by":"crossref","unstructured":"Aliakbarian, M.S., Saleh, F., Salzmann, M., Fernando, B., Petersson, L., Andersson, L.: Encouraging LSTMs to anticipate actions very early. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.39"},{"key":"33_CR4","doi-asserted-by":"crossref","unstructured":"Asadi-Aghbolaghi, M., et al.: A survey on deep learning based approaches for action and gesture recognition in image sequences. In: FG (2017)","DOI":"10.1007\/978-3-319-57021-1_19"},{"key":"33_CR5","doi-asserted-by":"crossref","unstructured":"Boreczky, J.S., Rowe, L.A.: Comparison of video shot boundary detection techniques. J. Electron. Imaging (1996)","DOI":"10.1117\/12.234794"},{"key":"33_CR6","doi-asserted-by":"crossref","unstructured":"Buch, S., Escorcia, V., Ghanem, B., Fei-Fei, L., Niebles, J.C.: End-to-end, single-stream temporal action detection in untrimmed videos. In: BMVC (2017)","DOI":"10.5244\/C.31.93"},{"key":"33_CR7","doi-asserted-by":"crossref","unstructured":"Buch, S., Escorcia, V., Shen, C., Ghanem, B., Niebles, J.C.: SST: single-stream temporal action proposals. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.675"},{"key":"33_CR8","doi-asserted-by":"crossref","unstructured":"Cao, Y., et al.: Recognize human activities from partially observed videos. In: CVPR (2013)","DOI":"10.1109\/CVPR.2013.343"},{"key":"33_CR9","doi-asserted-by":"crossref","unstructured":"Carreira, J., Zisserman, A.: Quo vadis, action recognition? A new model and the kinetics dataset. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.502"},{"key":"33_CR10","doi-asserted-by":"crossref","unstructured":"Chen, Y., Kalantidis, Y., Li, J., Yan, S., Feng, J.: Multi-fiber networks for video recognition. In: ECCV (2018)","DOI":"10.1007\/978-3-030-01246-5_22"},{"key":"33_CR11","unstructured":"Cheng, G., Wan, Y., Saudagar, A.N., Namuduri, K., Buckles, B.P.: Advances in human action recognition: a survey (2015). http:\/\/arxiv.org\/abs\/1501.05964"},{"key":"33_CR12","doi-asserted-by":"crossref","unstructured":"Dai, X., Singh, B., Zhang, G., Davis, L.S., Chen, Y.Q.: Temporal context network for activity localization in videos. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.610"},{"key":"33_CR13","unstructured":"Dai, Z., Yang, Z., Yang, F., Cohen, W.W., Salakhutdinov, R.: Good semi-supervised learning that requires a bad GAN. In: NIPS (2017)"},{"key":"33_CR14","doi-asserted-by":"crossref","unstructured":"Dave, A., Russakovsky, O., Ramanan, D.: Predictive-corrective networks for action detection. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.223"},{"key":"33_CR15","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"768","DOI":"10.1007\/978-3-319-46487-9_47","volume-title":"Computer Vision \u2013 ECCV 2016","author":"V Escorcia","year":"2016","unstructured":"Escorcia, V., Caba Heilbron, F., Niebles, J.C., Ghanem, B.: DAPs: deep action proposals for action understanding. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9907, pp. 768\u2013784. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46487-9_47"},{"key":"33_CR16","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C., Pinz, A., Zisserman, A.: Convolutional two-stream network fusion for video action recognition. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.213"},{"key":"33_CR17","doi-asserted-by":"crossref","unstructured":"Gan, C., Wang, N., Yang, Y., Yeung, D.Y., Hauptmann, A.G.: DevNet: a deep event network for multimedia event detection and evidence recounting. In: CVPR (2015)","DOI":"10.1109\/CVPR.2015.7298872"},{"key":"33_CR18","doi-asserted-by":"crossref","unstructured":"Gao, J., Chen, K., Nevatia, R.: Ctap: Complementary temporal action proposal generation. ECCV (2018)","DOI":"10.1007\/978-3-030-01216-8_5"},{"key":"33_CR19","doi-asserted-by":"crossref","unstructured":"Gao, J., Sun, C., Yang, Z., Nevatia, R.: Tall: temporal activity localization via language query. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.563"},{"key":"33_CR20","doi-asserted-by":"crossref","unstructured":"Gao, J., Yang, Z., Nevatia, R.: Cascaded boundary regression for temporal action detection. In: BMVC (2017)","DOI":"10.5244\/C.31.52"},{"key":"33_CR21","doi-asserted-by":"crossref","unstructured":"Gao, J., Yang, Z., Nevatia, R.: Red: reinforced encoder-decoder networks for action anticipation. In: BMVC (2017)","DOI":"10.5244\/C.31.92"},{"key":"33_CR22","doi-asserted-by":"crossref","unstructured":"Gao, J., Yang, Z., Sun, C., Chen, K., Nevatia, R.: Turn tap: temporal unit regression network for temporal action proposals. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.392"},{"key":"33_CR23","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"269","DOI":"10.1007\/978-3-319-46454-1_17","volume-title":"Computer Vision \u2013 ECCV 2016","author":"R De Geest","year":"2016","unstructured":"De Geest, R., Gavves, E., Ghodrati, A., Li, Z., Snoek, C., Tuytelaars, T.: Online action detection. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9909, pp. 269\u2013284. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46454-1_17"},{"key":"33_CR24","unstructured":"Goodfellow, I., et al.: Generative adversarial nets. In: NIPS (2014)"},{"key":"33_CR25","doi-asserted-by":"crossref","unstructured":"Heilbron, F.C., Escorcia, V., Ghanem, B., Niebles, J.C.: ActivityNet: a large-scale video benchmark for human activity understanding. In: CVPR (2015)","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"33_CR26","doi-asserted-by":"crossref","unstructured":"Heilbron, F.C., Barrios, W., Escorcia, V., Ghanem, B.: SCC: semantic context cascade for efficient action detection. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.338"},{"key":"33_CR27","doi-asserted-by":"crossref","unstructured":"Heilbron, F.C., Niebles, J.C., Ghanem, B.: Fast temporal activity proposals for efficient detection of human actions in untrimmed videos. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.211"},{"key":"33_CR28","doi-asserted-by":"crossref","unstructured":"Hoai, M., De la Torre, F.: Max-margin early event detectors. In: CVPR (2012)","DOI":"10.1109\/CVPR.2012.6248012"},{"key":"33_CR29","doi-asserted-by":"crossref","unstructured":"Hoai, M., De la Torre, F.: Max-margin early event detectors. In: IJCV (2014)","DOI":"10.1007\/s11263-013-0683-3"},{"key":"33_CR30","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"410","DOI":"10.1007\/978-3-319-10578-9_27","volume-title":"Computer Vision \u2013 ECCV 2014","author":"D Huang","year":"2014","unstructured":"Huang, D., Yao, S., Wang, Y., De La Torre, F.: Sequential max-margin event detectors. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8691, pp. 410\u2013424. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10578-9_27"},{"key":"33_CR31","doi-asserted-by":"crossref","unstructured":"Isola, P., Zhu, J.Y., Zhou, T., Efros, A.A.: Image-to-image translation with conditional adversarial networks. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.632"},{"key":"33_CR32","doi-asserted-by":"crossref","unstructured":"J\u00e9gou, H., Douze, M., Schmid, C., P\u00e9rez., P.: Aggregating local descriptors into a compact image representation. In: CVPR (2010)","DOI":"10.1109\/CVPR.2010.5540039"},{"key":"33_CR33","unstructured":"Jiang, Y.G., et al.: THUMOS challenge: action recognition with a large number of classes (2014). http:\/\/crcv.ucf.edu\/THUMOS14\/"},{"key":"33_CR34","unstructured":"Kang, S.M., Wildes, R.P.: Review of action recognition and detection methods. arXiv preprint arXiv:1610.06906 (2016)"},{"key":"33_CR35","doi-asserted-by":"crossref","unstructured":"Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., Fei-Fei, L.: Large-scale video classification with convolutional neural networks. In: CVPR (2014)","DOI":"10.1109\/CVPR.2014.223"},{"key":"33_CR36","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"596","DOI":"10.1007\/978-3-319-10602-1_39","volume-title":"Computer Vision \u2013 ECCV 2014","author":"Y Kong","year":"2014","unstructured":"Kong, Y., Kit, D., Fu, Y.: A discriminative model with multiple temporal scales for action prediction. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8693, pp. 596\u2013611. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10602-1_39"},{"key":"33_CR37","doi-asserted-by":"crossref","unstructured":"Kong, Y., Tao, Z., Fu, Y.: Deep sequential context networks for action prediction. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.390"},{"key":"33_CR38","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"689","DOI":"10.1007\/978-3-319-10578-9_45","volume-title":"Computer Vision \u2013 ECCV 2014","author":"T Lan","year":"2014","unstructured":"Lan, T., Chen, T.-C., Savarese, S.: A hierarchical representation for future action prediction. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8691, pp. 689\u2013704. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10578-9_45"},{"key":"33_CR39","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"203","DOI":"10.1007\/978-3-319-46478-7_13","volume-title":"Computer Vision \u2013 ECCV 2016","author":"Y Li","year":"2016","unstructured":"Li, Y., Lan, C., Xing, J., Zeng, W., Yuan, C., Liu, J.: Online human action detection using joint classification-regression recurrent neural networks. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9911, pp. 203\u2013220. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46478-7_13"},{"key":"33_CR40","doi-asserted-by":"crossref","unstructured":"Lin, T., Zhao, X., Shou, Z.: Single shot temporal action detection. In: ACM MM (2017)","DOI":"10.1145\/3123266.3123343"},{"key":"33_CR41","doi-asserted-by":"crossref","unstructured":"Liu, C., Li, Y., Hu, Y., Liu, J.: Online action detection and forecast via multitask deep recurrent neural networks. In: ICASSP (2017)","DOI":"10.1109\/ICASSP.2017.7952447"},{"key":"33_CR42","doi-asserted-by":"crossref","unstructured":"Ma, S., Sigal, L., Sclaroff, S.: Learning activity progression in LSTMs for activity detection and early detection. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.214"},{"key":"33_CR43","unstructured":"Odena, A., Olah, C., Shlens, J.: Conditional image synthesis with auxiliary classifier GANs. In: ICML (2017)"},{"key":"33_CR44","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"143","DOI":"10.1007\/978-3-642-15561-1_11","volume-title":"Computer Vision \u2013 ECCV 2010","author":"F Perronnin","year":"2010","unstructured":"Perronnin, F., S\u00e1nchez, J., Mensink, T.: Improving the fisher kernel for large-scale image classification. In: Daniilidis, K., Maragos, P., Paragios, N. (eds.) ECCV 2010. LNCS, vol. 6314, pp. 143\u2013156. Springer, Heidelberg (2010). https:\/\/doi.org\/10.1007\/978-3-642-15561-1_11"},{"issue":"6","key":"33_CR45","doi-asserted-by":"publisher","first-page":"976","DOI":"10.1016\/j.imavis.2009.11.014","volume":"28","author":"Ronald Poppe","year":"2010","unstructured":"Poppe, R.: A survey on vision-based human action recognition. In: Image and Vision Computing (2010)","journal-title":"Image and Vision Computing"},{"key":"33_CR46","unstructured":"Radford, A., Metz, L., Chintala, S.: Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434 (2015)"},{"key":"33_CR47","doi-asserted-by":"crossref","unstructured":"Richard, A., Gall, J.: Temporal action detection using a statistical language model. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.341"},{"key":"33_CR48","doi-asserted-by":"crossref","unstructured":"Ryoo, M.S.: Human activity prediction: Early recognition of ongoing activities from streaming videos. In: ICCV (2011)","DOI":"10.1109\/ICCV.2011.6126349"},{"key":"33_CR49","unstructured":"Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X.: Improved techniques for training GANs. In: NIPS (2016)"},{"key":"33_CR50","doi-asserted-by":"crossref","unstructured":"Shou, Z., Wang, D., Chang, S.F.: Temporal action localization in untrimmed videos via multi-stage CNNs. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.119"},{"key":"33_CR51","doi-asserted-by":"crossref","unstructured":"Shou, Z., Chan, J., Zareian, A., Miyazawa, K., Chang, S.F.: CDC: convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.155"},{"key":"33_CR52","doi-asserted-by":"crossref","unstructured":"Shou, Z., et al.: Online detection of action start in untrimmed, streaming videos. arXiv preprint arXiv:1802.06822 (2018)","DOI":"10.1007\/978-3-030-01219-9_33"},{"key":"33_CR53","doi-asserted-by":"crossref","unstructured":"Sigurdsson, G.A., Divvala, S., Farhadi, A., Gupta, A.: Asynchronous temporal fields for action recognition. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.599"},{"key":"33_CR54","unstructured":"Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recognition in videos. In: NIPS (2014)"},{"key":"33_CR55","doi-asserted-by":"crossref","unstructured":"Singh, G., Saha, S., Cuzzolin, F.: Online real time multiple spatiotemporal action localisation and prediction on a single platform. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.393"},{"key":"33_CR56","doi-asserted-by":"publisher","first-page":"411","DOI":"10.1016\/j.cviu.2009.03.011","volume":"114","author":"AF Smeaton","year":"2010","unstructured":"Smeaton, A.F., Over, P., Doherty, A.R.: Video shot boundary detection: seven years of trecvid activity. Comput. Vis. Image Underst. 114, 411\u2013418 (2010)","journal-title":"Comput. Vis. Image Underst."},{"key":"33_CR57","doi-asserted-by":"crossref","unstructured":"Soomro, K., Idrees, H., Shah, M.: Predicting the where and what of actors and actions through online action localization. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.290"},{"key":"33_CR58","unstructured":"Springenberg, J.T.: Unsupervised and semi-supervised learning with categorical generative adversarial networks. In: ICLR (2016)"},{"key":"33_CR59","doi-asserted-by":"crossref","unstructured":"Sun, C., Shetty, S., Sukthankar, R., Nevatia, R.: Temporal localization of fine-grained actions in videos by domain transfer from web images. In: ACM MM (2015)","DOI":"10.1145\/2733373.2806226"},{"key":"33_CR60","doi-asserted-by":"crossref","unstructured":"Tran, D., Bourdev, L., Fergus, R., Torresani, L., Paluri, M.: Learning spatiotemporal features with 3D convolutional networks. In: ICCV (2015)","DOI":"10.1109\/ICCV.2015.510"},{"key":"33_CR61","unstructured":"Tran, D., Ray, J., Shou, Z., Chang, S.F., Paluri, M.: ConvNet architecture search for spatiotemporal feature learning. arXiv preprint arXiv:1708.05038 (2017)"},{"key":"33_CR62","doi-asserted-by":"crossref","unstructured":"Tzeng, E., Hoffman, J., Saenko, K., Darrell, T.: Adversarial discriminative domain adaptation. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.316"},{"key":"33_CR63","unstructured":"Vondrick, C., Pirsiavash, H., Torralba, A.: Anticipating the future by watching unlabeled video. In: CVPR (2016)"},{"key":"33_CR64","doi-asserted-by":"crossref","unstructured":"Vondrick, C., Torralba, A.: Generating the future with adversarial transformers. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.319"},{"key":"33_CR65","doi-asserted-by":"crossref","unstructured":"Wang, H., Kl\u00e4ser, A., Schmid, C., Liu, C.L.: Action recognition by dense trajectories. In: CVPR (2011)","DOI":"10.1109\/CVPR.2011.5995407"},{"key":"33_CR66","doi-asserted-by":"crossref","unstructured":"Wang, H., Schmid, C.: Action recognition with improved trajectories. In: ICCV (2013)","DOI":"10.1109\/ICCV.2013.441"},{"key":"33_CR67","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"20","DOI":"10.1007\/978-3-319-46484-8_2","volume-title":"Computer Vision \u2013 ECCV 2016","author":"L Wang","year":"2016","unstructured":"Wang, L., et al.: Temporal segment networks: towards good practices for deep action recognition. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9912, pp. 20\u201336. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46484-8_2"},{"key":"33_CR68","volume-title":"Video Shot Boundary Detection","author":"K Warhade","year":"2011","unstructured":"Warhade, K., Merchant, S.N., Desai, U.B.: Video Shot Boundary Detection. River Publishers, Delft (2011)"},{"key":"33_CR69","doi-asserted-by":"publisher","first-page":"224","DOI":"10.1016\/j.cviu.2010.10.002","volume":"115","author":"D Weinland","year":"2011","unstructured":"Weinland, D., Ronfard, R., Boyer, E.: A survey of vision-based methods for action representation, segmentation and recognition. Comput. Vis. Image Underst. 115, 224\u2013241 (2011)","journal-title":"Comput. Vis. Image Underst."},{"key":"33_CR70","doi-asserted-by":"crossref","unstructured":"Xu, H., Das, A., Saenko, K.: R-C3D: Region convolutional 3D network for temporal activity detection. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.617"},{"key":"33_CR71","doi-asserted-by":"crossref","unstructured":"Xu, Z., Yang, Y., Hauptmann, A.G.: A discriminative CNN video representation for event detection. In: CVPR (2015)","DOI":"10.1109\/CVPR.2015.7298789"},{"key":"33_CR72","doi-asserted-by":"crossref","unstructured":"Yang, Z., Gao, J., Nevatia, R.: Spatio-temporal action detection with cascade proposal and location anticipation. In: BMVC (2017)","DOI":"10.5244\/C.31.95"},{"key":"33_CR73","doi-asserted-by":"crossref","unstructured":"Yeung, S., Russakovsky, O., Mori, G., Fei-Fei, L.: End-to-end learning of action detection from frame glimpses in videos. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.293"},{"key":"33_CR74","doi-asserted-by":"crossref","unstructured":"Yu, G., Yuan, J., Liu, Z.: Predicting human activities using spatio-temporal structure of interest points. In: ACM MM (2012)","DOI":"10.1145\/2393347.2396380"},{"key":"33_CR75","doi-asserted-by":"crossref","unstructured":"Yuan, J., Ni, B., Yang, X., Kassim, A.: Temporal action localization with pyramid of score distribution features. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.337"},{"key":"33_CR76","doi-asserted-by":"crossref","unstructured":"Yuan, Z., Stroud, J.C., Lu, T., Deng, J.: Temporal action localization by structured maximal sums. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.342"},{"key":"33_CR77","doi-asserted-by":"crossref","unstructured":"Zhao, Y., Xiong, Y., Wang, L., Wu, Z., Tang, X., Lin, D.: Temporal action detection with structured segment networks. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.317"},{"key":"33_CR78","doi-asserted-by":"crossref","unstructured":"Zhu, J.Y., Park, T., Isola, P., Efros, A.A.: Unpaired image-to-image translation using cycle-consistent adversarial networks. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.244"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2018"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-01219-9_33","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,6]],"date-time":"2022-10-06T01:15:37Z","timestamp":1665018937000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-030-01219-9_33"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018]]},"ISBN":["9783030012182","9783030012199"],"references-count":78,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-01219-9_33","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018]]},"assertion":[{"value":"7 October 2018","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Munich","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Germany","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2018","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8 September 2018","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14 September 2018","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"15","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2018","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2018.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"This content has been made available to all.","name":"free","label":"Free to read"}]}}