{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,2]],"date-time":"2026-05-02T15:08:50Z","timestamp":1777734530312,"version":"3.51.4"},"publisher-location":"Cham","reference-count":35,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783319541921","type":"print"},{"value":"9783319541938","type":"electronic"}],"license":[{"start":{"date-parts":[[2017,1,1]],"date-time":"2017-01-01T00:00:00Z","timestamp":1483228800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2017]]},"DOI":"10.1007\/978-3-319-54193-8_23","type":"book-chapter","created":{"date-parts":[[2017,3,10]],"date-time":"2017-03-10T09:24:07Z","timestamp":1489137847000},"page":"361-377","source":"Crossref","is-referenced-by-count":61,"title":["Video Summarization Using Deep Semantic Features"],"prefix":"10.1007","author":[{"given":"Mayu","family":"Otani","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuta","family":"Nakashima","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Esa","family":"Rahtu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Janne","family":"Heikkil\u00e4","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Naokazu","family":"Yokoya","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2017,3,11]]},"reference":[{"key":"23_CR1","unstructured":"YouTube.com: Statistics-YouTube (2016). https:\/\/www.youtube.com\/yt\/press\/en-GB\/statistics.html"},{"key":"23_CR2","unstructured":"Gong, Y., Liu, X.: Video summarization using singular value decomposition. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 174\u2013180 (2000)"},{"key":"23_CR3","unstructured":"Gong, B., Chao, W.L., Grauman, K., Sha, F.: Diverse sequential subset selection for supervised video summarization. In: Proceedings of Advances in Neural Information Processing Systems (NIPS), pp. 2069\u20132077 (2014)"},{"key":"23_CR4","doi-asserted-by":"crossref","unstructured":"Zhao, B., Xing, E.P.: Quasi real-time summarization for consumer videos. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 2513\u20132520 (2014)","DOI":"10.1109\/CVPR.2014.322"},{"key":"23_CR5","doi-asserted-by":"crossref","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe, D.G.: Distinctive image features from scale invariant keypoints. Int. J. Comput. Vis. 60, 91\u201311020042 (2004)","journal-title":"Int. J. Comput. Vis."},{"key":"23_CR6","doi-asserted-by":"crossref","unstructured":"Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 886\u2013893 (2005)","DOI":"10.1109\/CVPR.2005.177"},{"key":"23_CR7","doi-asserted-by":"crossref","unstructured":"Yao, L., Ballas, N., Larochelle, H., Courville, A.: Describing videos by exploiting temporal structure. In: Proceedings of IEEE International Conference Computer Vision (ICCV), pp. 4507\u20134515 (2015)","DOI":"10.1109\/ICCV.2015.512"},{"key":"23_CR8","unstructured":"Donahue, J., Jia, Y., Vinyals, O., Hoffman, J., Zhang, N., Tzeng, E., Darrell, T.: DeCAF: a deep convolutional activation feature for generic visual recognition. In: Proceedings of International Conference Machine Learning (ICML), vol. 32, pp. 647\u2013655 (2014)"},{"key":"23_CR9","doi-asserted-by":"crossref","unstructured":"Xu, J., Mei, T., Yao, T., Rui, Y.: MSR-VTT: a large video description dataset for bridging video and language. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 5288\u20135296 (2016)","DOI":"10.1109\/CVPR.2016.571"},{"key":"23_CR10","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recoginition. In: Proceedings International Conference Learning Representations (ICLR), pp. 14 (2015)"},{"key":"23_CR11","doi-asserted-by":"crossref","first-page":"575","DOI":"10.1109\/TMM.2004.830811","volume":"6","author":"N Babaguchi","year":"2004","unstructured":"Babaguchi, N., Kawai, Y., Ogura, T., Kitahashi, T.: Personalized abstraction of broadcasted American football video by highlight selection. IEEE Trans. Multimed. 6, 575\u2013586 (2004)","journal-title":"IEEE Trans. Multimed."},{"key":"23_CR12","doi-asserted-by":"crossref","unstructured":"Sang, J., Xu, C.: Character-based movie summarization. In: Proceedings of ACM International Conference Multimedia (MM), pp. 855\u2013858 (2010)","DOI":"10.1145\/1873951.1874096"},{"key":"23_CR13","doi-asserted-by":"crossref","first-page":"1553","DOI":"10.1109\/TMM.2013.2267205","volume":"15","author":"G Evangelopoulos","year":"2013","unstructured":"Evangelopoulos, G., Zlatintsi, A., Potamianos, A., Maragos, P., Rapantzikos, K., Skoumas, G., Avrithis, Y.: Multimodal saliency and fusion for movie summarization based on aural, visual, and textual attention. IEEE Trans. Multimed. 15, 1553\u20131568 (2013)","journal-title":"IEEE Trans. Multimed."},{"key":"23_CR14","doi-asserted-by":"crossref","unstructured":"Lu, Z., Grauman, K.: Story-driven summarization for egocentric video. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 2714\u20132721 (2013)","DOI":"10.1109\/CVPR.2013.350"},{"key":"23_CR15","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"540","DOI":"10.1007\/978-3-319-10599-4_35","volume-title":"Computer Vision \u2013 ECCV 2014","author":"D Potapov","year":"2014","unstructured":"Potapov, D., Douze, M., Harchaoui, Z., Schmid, C.: Category-specific video summarization. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8694, pp. 540\u2013555. Springer, Heidelberg (2014). doi: 10.1007\/978-3-319-10599-4_35"},{"key":"23_CR16","doi-asserted-by":"crossref","unstructured":"Yang, H., Wang, B., Lin, S., Wipf, D., Guo, M., Guo, B.: Unsupervised extraction of video highlights via robust recurrent auto-encoders. In: Proceedings of IEEE International Conference Computer Vision (ICCV), pp. 4633\u20134641 (2015)","DOI":"10.1109\/ICCV.2015.526"},{"key":"23_CR17","doi-asserted-by":"crossref","unstructured":"Xu, J., Mukherjee, L., Li, Y., Warner, J., Rehg, J.M., Singh, V.: Gaze-enabled egocentric video summarization via constrained submodular maximization. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 2235\u20132244 (2015)","DOI":"10.1109\/CVPR.2015.7298836"},{"key":"23_CR18","unstructured":"Tschiatschek, S., Iyer, R.K., Wei, H., Bilmes, J.A.: Learning mixtures of submodular functions for image collection summarization. In: Proceedings of Advances in Neural Information Processing Systems (NIPS), pp. 1413\u20131421 (2014)"},{"key":"23_CR19","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"505","DOI":"10.1007\/978-3-319-10584-0_33","volume-title":"Computer Vision \u2013 ECCV 2014","author":"M Gygli","year":"2014","unstructured":"Gygli, M., Grabner, H., Riemenschneider, H., Gool, L.: Creating summaries from user videos. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8695, pp. 505\u2013520. Springer, Heidelberg (2014). doi: 10.1007\/978-3-319-10584-0_33"},{"key":"23_CR20","doi-asserted-by":"crossref","unstructured":"Gygli, M., Grabner, H., van Gool, L.: Video summarization by learning submodular mixtures of objectives. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 3090\u20133098 (2015)","DOI":"10.1109\/CVPR.2015.7298928"},{"key":"23_CR21","doi-asserted-by":"crossref","unstructured":"Song, Y., Vallmitjana, J., Stent, A., Jaimes, A.: TVSum: summarizing web videos using titles. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 5179\u20135187 (2015)","DOI":"10.1109\/CVPR.2015.7299154"},{"key":"23_CR22","doi-asserted-by":"crossref","unstructured":"Khosla, A., Hamid, R., Lin, C.j., Sundaresan, N.: Large-scale video summarization using web-image priors. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 2698\u20132705 (2013)","DOI":"10.1109\/CVPR.2013.348"},{"key":"23_CR23","doi-asserted-by":"crossref","unstructured":"Chu, W.S., Jaimes, A.: Video co-summarization: video summarization by visual co-occurrence. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 3584\u20133592 (2015)","DOI":"10.1109\/CVPR.2015.7298981"},{"key":"23_CR24","doi-asserted-by":"crossref","unstructured":"Wang, X., Gupta, A.: Unsupervised learning of visual representations using videos. In: Proceedings of IEEE International Conference Computer Vision (ICCV), pp. 2794\u20132802 (2015)","DOI":"10.1109\/ICCV.2015.320"},{"key":"23_CR25","unstructured":"Frome, A., Corrado, G., Shlens, J.: DeViSE: a deep visual-semantic embedding model. In: Proceedings of Advances in Neural Information Processing Systems (NIPS), pp. 2121\u20132129 (2013)"},{"key":"23_CR26","doi-asserted-by":"crossref","unstructured":"Chopra, S., Hadsell, R., LeCun, Y.: Learning a similarity metric discriminatively, with application to face verification. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 539\u2013546 (2005)","DOI":"10.1109\/CVPR.2005.202"},{"key":"23_CR27","doi-asserted-by":"crossref","unstructured":"Lin, T.Y., Belongie, S., Hays, J.: Learning deep representations for ground-to-aerial geolocalization. In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 5007\u20135015 (2015)","DOI":"10.1109\/CVPR.2015.7299135"},{"key":"23_CR28","unstructured":"Kiros, R., Zhu, Y., Salakhutdinov, R.R., Zemel, R., Urtasun, R., Torralba, A., Fidler, S.: Skip-thought vectors. In: Proceedings of Advances in Neural Information Processing Systems (NIPS), pp. 3276\u20133284 (2015)"},{"key":"23_CR29","unstructured":"Maaten, L.V.D., Hinton, G.E.: Visualizing high-dimensional data using t-SNE. J. Mach. Learn. Res. 9, 2579\u20132605 (2008)"},{"key":"23_CR30","doi-asserted-by":"crossref","unstructured":"DeMenthon, D., Kobla, V., Doermann, D.: Video summarization by curve simplification. In: Proceedings of ACM International Conference Multimedia (MM), pp. 211\u2013218 (1998)","DOI":"10.1145\/290747.290773"},{"key":"23_CR31","unstructured":"Kingma, D., Ba, J.: Adam: A method for stochastic optimization. In: Proceedings of Internatonal Conference Learning Representations (ICLR), pp. 11 (2015)"},{"key":"23_CR32","doi-asserted-by":"crossref","unstructured":"Leskovec, J., Krause, A., Guestrin, C., Faloutsos, C., VanBriesen, J., Glance, N.: Cost-effective outbreak detection in networks. In: Proceedings of ACM SIGKDD International Conference Knowledge Discovery and Data Mining (KDD), pp. 420\u2013429 (2007)","DOI":"10.1145\/1281192.1281239"},{"key":"23_CR33","first-page":"34","volume":"28","author":"N Ejaz","year":"2013","unstructured":"Ejaz, N., Mehmood, I., Wook Baik, S.: Efficient visual attention based framework for extracting key frames from videos. Sig. Process.: Image Commun. 28, 34\u201344 (2013)","journal-title":"Sig. Process.: Image Commun."},{"key":"23_CR34","doi-asserted-by":"crossref","unstructured":"Gygli, M., Grabner, H., Riemenschneider, H., Nater, F., Gool, L.V.: The interestingness of images. In: IEEE International Conference Computer Vision (ICCV), pp. 1633\u2013164 (2013)","DOI":"10.1109\/ICCV.2013.205"},{"key":"23_CR35","doi-asserted-by":"crossref","unstructured":"Alexe, B., Deselaers, T., Ferrari, V.: What is an object? In: Proceedings of IEEE Computer Society Conference Computer Vision and Pattern Recognition (CVPR), pp. 73\u201380 (2010)","DOI":"10.1109\/CVPR.2010.5540226"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ACCV 2016"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-54193-8_23","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,16]],"date-time":"2025-06-16T16:09:25Z","timestamp":1750090165000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-54193-8_23"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017]]},"ISBN":["9783319541921","9783319541938"],"references-count":35,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-54193-8_23","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017]]}}}