{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,26]],"date-time":"2025-09-26T13:15:35Z","timestamp":1758892535155},"reference-count":42,"publisher":"Springer Science and Business Media LLC","issue":"9","license":[{"start":{"date-parts":[[2016,10,28]],"date-time":"2016-10-28T00:00:00Z","timestamp":1477612800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"name":"Japan Society for the Promotion of Science (JP)","award":["25730115"],"award-info":[{"award-number":["25730115"]}]},{"name":"Japan Society for the Promotion of Science (JP)","award":["16K16086"],"award-info":[{"award-number":["16K16086"]}]},{"name":"Japan Society for the Promotion of Science (JP)","award":["25540086"],"award-info":[{"award-number":["25540086"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2017,5]]},"DOI":"10.1007\/s11042-016-4061-3","type":"journal-article","created":{"date-parts":[[2016,10,28]],"date-time":"2016-10-28T05:14:58Z","timestamp":1477631698000},"page":"12097-12115","update-policy":"http:\/\/dx.doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":9,"title":["Video summarization using textual descriptions for authoring video blogs"],"prefix":"10.1007","volume":"76","author":[{"given":"Mayu","family":"Otani","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuta","family":"Nakashima","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tomokazu","family":"Sato","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Naokazu","family":"Yokoya","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2016,10,28]]},"reference":[{"key":"4061_CR1","doi-asserted-by":"publisher","unstructured":"Aizawa K, Ishijima K, Shiina M (2001) Summarizing wearable video. In: Proc. Int\u2019l Conf. Image Processing (ICIP), pp. 398\u2013401","DOI":"10.1109\/ICIP.2001.958135"},{"key":"4061_CR2","doi-asserted-by":"publisher","unstructured":"Alexe B, Deselaers T, Ferrari V (2010) What is an object?. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 73\u201380","DOI":"10.1109\/CVPR.2010.5540226"},{"issue":"4","key":"4061_CR3","doi-asserted-by":"publisher","first-page":"575","DOI":"10.1109\/TMM.2004.830811","volume":"6","author":"N Babaguchi","year":"2004","unstructured":"Babaguchi N, Kawai Y, Ogura T, Kitahashi T (2004) Personalized abstraction of broadcasted American football video by highlight selection. IEEE Trans Multimedia 6(4):575\u2013586","journal-title":"IEEE Trans Multimedia"},{"key":"4061_CR4","doi-asserted-by":"publisher","unstructured":"Chu WS, Jaimes A (2015) Video co-summarization: Video summarization by visual co-occurrence. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 3584\u20133592","DOI":"10.1109\/CVPR.2015.7298981"},{"key":"4061_CR5","doi-asserted-by":"publisher","unstructured":"DeMenthon D, Kobla V, Doermann D (1998) Video summarization by curve simplification. In: Proc. ACM Int\u2019l Conf. Multimedia (MM), pp. 211\u2013218","DOI":"10.1145\/290747.290773"},{"issue":"7","key":"4061_CR6","doi-asserted-by":"publisher","first-page":"1553","DOI":"10.1109\/TMM.2013.2267205","volume":"15","author":"G Evangelopoulos","year":"2013","unstructured":"Evangelopoulos G, Zlatintsi A, Potamianos A, Maragos P, Rapantzikos K, Skoumas G, Avrithis Y (2013) Multimodal saliency and fusion for movie summarization based on aural, visual, and textual attention. IEEE Trans Multimedia 15(7):1553\u20131568","journal-title":"IEEE Trans Multimedia"},{"key":"4061_CR7","doi-asserted-by":"publisher","first-page":"972","DOI":"10.1126\/science.1136800","volume":"315","author":"BJ Frey","year":"2007","unstructured":"Frey BJ, Delbert D (2007) Clustering by passing messages between data points. Science 315:972\u2013976","journal-title":"Science"},{"key":"4061_CR8","doi-asserted-by":"publisher","unstructured":"Girshick R, Donahue J, Darrell T, Berkeley UC, Malik J (2014) Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 2\u20139","DOI":"10.1109\/CVPR.2014.81"},{"key":"4061_CR9","unstructured":"Gong Y, Liu X (2000) Video summarization using singular value decomposition. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 174\u2013180"},{"key":"4061_CR10","unstructured":"Gong B, Chao WL, Grauman K, Sha F (2014) Diverse sequential subset selection for supervised video summarization. In: Proc. Advances in Neural Information Processing Systems (NIPS), pp. 2069\u2013 2077"},{"key":"4061_CR11","doi-asserted-by":"publisher","unstructured":"Gygli M, Grabner H, van Gool L (2015) Video summarization by learning submodular mixtures of objectives. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 3090\u20133098","DOI":"10.1109\/CVPR.2015.7298928"},{"key":"4061_CR12","doi-asserted-by":"publisher","unstructured":"Gygli M, Grabner H, Riemenschneider H, van Gool L (2014) Creating summaries from user videos. In: Proc. European Conf. Computer Vision (ECCV), pp. 505\u2013520","DOI":"10.1007\/978-3-319-10584-0_33"},{"issue":"4","key":"4061_CR13","first-page":"1","volume":"7","author":"R Hong","year":"2011","unstructured":"Hong R, Tang J, Tan HK, Ngo CW, Yan S, Chua TS (2011) Beyond search: Event-driven summarization for web videos. ACM Trans. Multimedia Computing. Communications, and Applications 7(4):1\u201318","journal-title":"Communications, and Applications"},{"key":"4061_CR14","doi-asserted-by":"publisher","unstructured":"Hu Y, Ren JS, Dai J, Yuan C, Xu L, Wang W (2015) Deep multimodal speaker naming. In: Proc. ACM Int\u2019l Conf. Multimedia (MM), pp. 1107\u20131110","DOI":"10.1145\/2733373.2806293"},{"issue":"6","key":"4061_CR15","doi-asserted-by":"publisher","first-page":"1097","DOI":"10.1109\/TMM.2008.2001374","volume":"10","author":"CR Huang","year":"2008","unstructured":"Huang CR, Lee HP, Chen CS (2008) Shot change detection via local keypoint matching. IEEE Trans. Multimedia 10(6):1097\u20131108","journal-title":"IEEE Trans. Multimedia"},{"key":"4061_CR16","doi-asserted-by":"publisher","unstructured":"Khosla A, Hamid R, Lin CJ, Sundaresan N (2013) Large-scale video summarization using web-image priors. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 2698\u20132705","DOI":"10.1109\/CVPR.2013.348"},{"key":"4061_CR17","doi-asserted-by":"publisher","unstructured":"Lagani\u0117re R., Bacco R, Hocevar A, Lambert P, Pa\u00efs G, Ionescu BE (2008) Video summarization from spatio-temporal features. In: Proc. ACM TRECVid Video Summarization Workshop, pp. 144\u2013148","DOI":"10.1145\/1463563.1463590"},{"key":"4061_CR18","unstructured":"Lee YJ, Ghosh J, Grauman K (2012) Discovering important people and objects for egocentric video summarization. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 1346\u20131353"},{"key":"4061_CR19","doi-asserted-by":"publisher","unstructured":"Li Y, Merialdo B, Antipolis S (2010) VERT: Automatic evaluation of video summaries. In: Proc. ACM Int\u2019l Conf. Multimedia (MM), pp. 851\u2013854","DOI":"10.1145\/1873951.1874095"},{"key":"4061_CR20","doi-asserted-by":"publisher","unstructured":"Lu Z, Grauman K (2013) Story-driven summarization for egocentric video. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 2714\u20132721","DOI":"10.1109\/CVPR.2013.350"},{"key":"4061_CR21","doi-asserted-by":"publisher","unstructured":"Ma Y, Lu L, Zhang H, Li M (2002) A user attention model for video summarization. In: Proc. ACM Int\u2019l Conf. Multimedia (MM), pp. 533\u2013542","DOI":"10.1145\/641007.641116"},{"issue":"6","key":"4061_CR22","doi-asserted-by":"publisher","first-page":"797","DOI":"10.1109\/TSMCC.2011.2109710","volume":"41","author":"S Maybank","year":"2011","unstructured":"Maybank S (2011) A survey on visual content-based video indexing and retrieval. IEEE Trans Syst Man Cybern Part C 41(6):797\u2013819","journal-title":"IEEE Trans Syst Man Cybern Part C"},{"key":"4061_CR23","doi-asserted-by":"publisher","unstructured":"Mcdonald R (2007) A study of global inference algorithms in multi-document summarization. In: Proc. European Conf. Information Retrieval (ECIR), pp. 557\u2013564","DOI":"10.1007\/978-3-540-71496-5_51"},{"issue":"2","key":"4061_CR24","doi-asserted-by":"publisher","first-page":"121","DOI":"10.1016\/j.jvcir.2007.04.002","volume":"19","author":"AG Money","year":"2008","unstructured":"Money AG, Agius H (2008) Video summarisation: A conceptual framework and survey of the state of the art. J Vis Commun Image Represent 19(2):121\u2013143","journal-title":"J Vis Commun Image Represent"},{"key":"4061_CR25","doi-asserted-by":"publisher","unstructured":"Nakashima Y, Yokoya N (2013) Inferring what the videographer wanted to capture. In: Proc. IEEE Int\u2019l Conf. Image Processing (ICIP), pp. 191\u2013195","DOI":"10.1109\/ICIP.2013.6738040"},{"issue":"2","key":"4061_CR26","doi-asserted-by":"publisher","first-page":"296","DOI":"10.1109\/TCSVT.2004.841694","volume":"15","author":"CW Ngo","year":"2005","unstructured":"Ngo CW, Ma YF, Zhang HJ (2005) Video summarization and scene detection by graph modeling. IEEE Trans Circuits Syst Video Technol 15(2):296\u2013304","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"4061_CR27","doi-asserted-by":"publisher","unstructured":"Nguyen C, Niu Y, Liu F, Money AG, Agius H (2012) Video summagator: An interface for video summarization and navigation. In: Proc. SIGCHI Conf. Human Factors in Computing Systems, vol. 19, pp. 3\u20136","DOI":"10.1145\/2207676.2207767"},{"key":"4061_CR28","doi-asserted-by":"publisher","unstructured":"Otani M, Nakashima Y, Sato T, Yokoya N (2015) Textual description-based video summarization for video blogs. In: Proc. IEEE Int\u2019l Conf. Multimedia and Expo (ICME), 6 pages","DOI":"10.1109\/ICME.2015.7177493"},{"key":"4061_CR29","doi-asserted-by":"publisher","unstructured":"Perazzi F, Krahenbuhl P, Pritch Y, Hornung A (2012) Saliency filters: Contrast based filtering for salient region detection. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 733\u2013740","DOI":"10.1109\/CVPR.2012.6247743"},{"key":"4061_CR30","doi-asserted-by":"publisher","unstructured":"Potapov D, Douze M, Harchaoui Z, Schmid C (2014) Category-specific video summarization. In: Proc. European Conf. Computer Vision (ECCV), pp. 540\u2013555","DOI":"10.1007\/978-3-319-10599-4_35"},{"key":"4061_CR31","doi-asserted-by":"publisher","unstructured":"Sang J, Xu C (2010) Character-based movie summarization. In: Proc. ACM Int\u2019l Conf. Multimedia (MM), pp. 855\u2013858","DOI":"10.1145\/1873951.1874096"},{"key":"4061_CR32","unstructured":"Song Y, Vallmitjana J, Stent A, Jaimes A (2015) TVSum: Summarizing web videos using titles. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 5179\u2013 5187"},{"key":"4061_CR33","doi-asserted-by":"publisher","unstructured":"Takamura H, Okumura M (2009) Text summarization model based on maximum coverage problem and its variant. In: Proc. Conf. of the European Chapter of the Association for Computational Linguistics (EACL), pp. 781\u2013789","DOI":"10.3115\/1609067.1609154"},{"issue":"4","key":"4061_CR34","doi-asserted-by":"publisher","first-page":"775","DOI":"10.1109\/TMM.2006.876282","volume":"8","author":"CM Taskiran","year":"2006","unstructured":"Taskiran CM, Pizlo Z, Amir A, Ponceleon D, Delp EEJ (2006) Automated video program summarization using speech transcripts. IEEE Trans Multimedia 8 (4):775\u2013790","journal-title":"IEEE Trans Multimedia"},{"key":"4061_CR35","doi-asserted-by":"publisher","unstructured":"Toutanova K, Klein D, Manning CD, Singer Y (2003) Feature-rich part-of-speech tagging with a cyclic dependency network. In: Proc. Conf. of the North American Chapter of the Association for Computational Linguistics on Human Language Technology (NAACL), pp. 173\u2013180","DOI":"10.3115\/1073445.1073478"},{"issue":"1","key":"4061_CR36","doi-asserted-by":"publisher","first-page":"19","DOI":"10.1145\/1198302.1198305","volume":"3","author":"BT Truong","year":"2007","unstructured":"Truong BT, Venkatesh S (2007) Video abstraction: A systematic review and classification. ACM Trans Multimed Comput Commun Appl 3(1):19","journal-title":"ACM Trans Multimed Comput Commun Appl"},{"key":"4061_CR37","unstructured":"Tschiatschek S, Iyer RK, Wei H, Bilmes JA (2014) Learning mixtures of submodular functions for image collection summarization. In: Proc. Advances in Neural Information Processing Systems (NIPS), pp. 1413\u20131421"},{"key":"4061_CR38","doi-asserted-by":"publisher","unstructured":"Uchihashi S, Foote J, Girgensohn A, Boreczky J (1999) Video manga: Generating semantically meaningful video summaries. In: Proc. ACM Int\u2019l Conf. Multimedia (MM), pp. 383\u2013 392","DOI":"10.1145\/319463.319654"},{"key":"4061_CR39","doi-asserted-by":"publisher","unstructured":"Xu J, Mukherjee L, Li Y, Warner J, Rehg JM, Singh V (2015) Gaze-enabled egocentric video summarization via constrained submodular maximization. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 2235\u20132244","DOI":"10.1109\/CVPR.2015.7298836"},{"key":"4061_CR40","doi-asserted-by":"publisher","unstructured":"Yan Q, Xu L, Shi J, Jia J (2013) Hierarchical saliency detection. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 1155\u20131162","DOI":"10.1109\/CVPR.2013.153"},{"key":"4061_CR41","doi-asserted-by":"publisher","unstructured":"Yang H, Wang B, Lin S, Wipf D, Guo M, Guo B (2015) Unsupervised extraction of video highlights via robust recurrent auto-encoders. In: Proc. IEEE Int\u2019l Conf. Computer Vision (ICCV), pp. 4633\u2013 4641","DOI":"10.1109\/ICCV.2015.526"},{"key":"4061_CR42","doi-asserted-by":"publisher","unstructured":"Zhao B, Xing EP (2014) Quasi real-time summarization for consumer videos. In: Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), pp. 2513\u20132520","DOI":"10.1109\/CVPR.2014.322"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-016-4061-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-016-4061-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-016-4061-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2017,5,6]],"date-time":"2017-05-06T06:50:36Z","timestamp":1494053436000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-016-4061-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,10,28]]},"references-count":42,"journal-issue":{"issue":"9","published-print":{"date-parts":[[2017,5]]}},"alternative-id":["4061"],"URL":"https:\/\/doi.org\/10.1007\/s11042-016-4061-3","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2016,10,28]]}}}