{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,13]],"date-time":"2026-02-13T12:19:17Z","timestamp":1770985157354,"version":"3.50.1"},"reference-count":40,"publisher":"Springer Science and Business Media LLC","issue":"24","license":[{"start":{"date-parts":[[2023,3,22]],"date-time":"2023-03-22T00:00:00Z","timestamp":1679443200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,3,22]],"date-time":"2023-03-22T00:00:00Z","timestamp":1679443200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2023,10]]},"DOI":"10.1007\/s11042-023-15126-1","type":"journal-article","created":{"date-parts":[[2023,3,27]],"date-time":"2023-03-27T03:20:28Z","timestamp":1679887228000},"page":"37529-37549","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":16,"title":["Query-based video summarization with multi-label classification network"],"prefix":"10.1007","volume":"82","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-7821-5720","authenticated-orcid":false,"given":"Weifeng","family":"Hu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yu","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yujun","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jia","family":"Zhao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xifeng","family":"Hu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yan","family":"Cui","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xuejing","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2023,3,22]]},"reference":[{"issue":"1","key":"15126_CR1","doi-asserted-by":"publisher","first-page":"56","DOI":"10.1016\/j.patrec.2010.08.004","volume":"32","author":"S Avila","year":"2011","unstructured":"Avila S, Lopes A, Luz AD et al (2011) VSUMM: a mechanism designed to produce static video summaries and a novel evaluation method. Pattern Recogn Lett 32(1):56\u201368. https:\/\/doi.org\/10.1016\/j.patrec.2010.08.004","journal-title":"Pattern Recogn Lett"},{"issue":"12","key":"15126_CR2","doi-asserted-by":"publisher","first-page":"17457","DOI":"10.1007\/s11042-022-12442-w","volume":"81","author":"K Cizmeciler","year":"2022","unstructured":"Cizmeciler K, Erdem E, Erdem A (2022) Leveraging semantic saliency maps for query-specific video summarization[J]. Multimed Tools Appl 81(12):17457\u201317482","journal-title":"Multimed Tools Appl"},{"key":"15126_CR3","doi-asserted-by":"crossref","unstructured":"Dalal N, Triggs B (2005) Histograms of oriented gradients for human detection. IEEE computer society conference on computer vision and pattern recognition. pp 886-893","DOI":"10.1109\/CVPR.2005.177"},{"key":"15126_CR4","doi-asserted-by":"publisher","unstructured":"Dataset, evaluation and a memory network-based approach (n.d.) . In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp 2127\u20132136. https:\/\/doi.org\/10.1109\/CVPR.2017.229","DOI":"10.1109\/CVPR.2017.229"},{"issue":"1","key":"15126_CR5","doi-asserted-by":"publisher","first-page":"34","DOI":"10.1016\/j.image.2012.10.002","volume":"28","author":"N Ejaz","year":"2013","unstructured":"Ejaz N, Mehmood I, Baik SW (2013) Efficient visual attention based framework for extracting key frames from videos. Signal Process Image Commun 28(1):34\u201344. https:\/\/doi.org\/10.1016\/j.image.2012.10.002","journal-title":"Signal Process Image Commun"},{"key":"15126_CR6","doi-asserted-by":"publisher","unstructured":"Fajtl J, Sokeh HS, Argyriou V et al (2019) Summarizing Videos with Attention. Proceedings of the Asian Conference on Computer Vision Workshops. pp 39\u201354 https:\/\/doi.org\/10.1007\/978-3-030-21074-84","DOI":"10.1007\/978-3-030-21074-84"},{"issue":"12","key":"15126_CR7","doi-asserted-by":"publisher","first-page":"16995","DOI":"10.1007\/s11042-018-7083-1","volume":"78","author":"B Fakhar","year":"2019","unstructured":"Fakhar B, Kanan HR, Behrad A (2019) Event detection in soccer videos using unsupervised learning of spatiotemporal features based on pooled spatial pyramid model. Multimed Tools Appl 78(12):16995\u201317025","journal-title":"Multimed Tools Appl"},{"key":"15126_CR8","first-page":"2069","volume":"3","author":"B Gong","year":"2014","unstructured":"Gong B, Chao WL, Grauman K, Sha F (2014) Diverse sequential subset selection for supervised video summarization. Adv Neural Inf Proces Syst 3:2069\u20132077","journal-title":"Adv Neural Inf Proces Syst"},{"key":"15126_CR9","doi-asserted-by":"publisher","unstructured":"Gygli M, Grabner H, Riemenschneider H, Van Gool L (2014) Creating summaries from user videos. European Conference on Computer Vision. pp 505\u2013520. https:\/\/doi.org\/10.1007\/978-3-319-10584-0_33","DOI":"10.1007\/978-3-319-10584-0_33"},{"issue":"1","key":"15126_CR10","doi-asserted-by":"publisher","first-page":"77","DOI":"10.1109\/TII.2019.2929228","volume":"16","author":"T Hussain","year":"2020","unstructured":"Hussain T, Muhammad K, Ullah A, Cao Z, Baik SW, de Albuquerque VHC (2020) Cloud-assisted multiview video summarization using CNN and bidirectional LSTM. IEEE Trans Indust Inform 16(1):77\u201386","journal-title":"IEEE Trans Indust Inform"},{"issue":"6","key":"15126_CR11","doi-asserted-by":"publisher","first-page":"1709","DOI":"10.1109\/TCSVT.2019.2904996","volume":"30","author":"Z Ji","year":"2020","unstructured":"Ji Z, Xiong K, Pang Y, Li X (2020) Video summarization with attention-based encoder-decoder networks. IEEE Trans Circuits Syst Video Technol 30(6):1709\u20131717","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"15126_CR12","doi-asserted-by":"publisher","unstructured":"Jiang Y, Cui K, Peng B and Xu C (2019) Comprehensive video understanding: video summarization with content-based video recommender design. 2019 IEEE\/CVF international conference on computer vision workshop (ICCVW). pp 1562-1569 https:\/\/doi.org\/10.1109\/ICCVW.2019.00195","DOI":"10.1109\/ICCVW.2019.00195"},{"key":"15126_CR13","doi-asserted-by":"crossref","unstructured":"Kanmani M, Narasimhan V (2018) Swarm intelligent based contrast enhancement algorithm with improved visual perception for color images 77. pp 12701\u201312724","DOI":"10.1007\/s11042-017-4911-7"},{"issue":"4","key":"15126_CR14","doi-asserted-by":"publisher","first-page":"1911","DOI":"10.1007\/s11045-019-00636-9","volume":"30","author":"M Kanmani","year":"2019","unstructured":"Kanmani M, Narasimhan V (2019) An optimal weighted averaging fusion strategy for remotely sensed images[J]. Multidim Syst Sign Process 30(4):1911\u20131935","journal-title":"Multidim Syst Sign Process"},{"issue":"3","key":"15126_CR15","doi-asserted-by":"publisher","first-page":"278","DOI":"10.1504\/IJBET.2019.102975","volume":"31","author":"M Kanmani","year":"2019","unstructured":"Kanmani M, Narasimhan V (2019) Particle swarm optimisation aided weighted averaging fusion strategy for CT and MRI medical images[J]. Int J Biomed Eng Technol 31(3):278\u2013291","journal-title":"Int J Biomed Eng Technol"},{"key":"15126_CR16","doi-asserted-by":"publisher","first-page":"25","DOI":"10.1007\/s11042-020-08628-9","volume":"79","author":"M Kanmani","year":"2020","unstructured":"Kanmani M, Narasimhan V (2020) Optimal fusion aided face recognition from visible and thermal face images[J]. Multimed Tools Appl 79:25\u201326. https:\/\/doi.org\/10.1007\/s11042-020-08628-9","journal-title":"Multimed Tools Appl"},{"key":"15126_CR17","doi-asserted-by":"publisher","unstructured":"Kwon H, Shim W, Cho M (2019) Temporal U-nets for video summarization with scene and action recognition. Proceedings of the 2019 IEEE\/CVF international conference on computer vision workshop. pp 1541-1544 https:\/\/doi.org\/10.1109\/ICCVW.2019.00192","DOI":"10.1109\/ICCVW.2019.00192"},{"issue":"1","key":"15126_CR18","doi-asserted-by":"publisher","first-page":"38","DOI":"10.1007\/s11263-014-0794-5","volume":"114","author":"YJ Lee","year":"2015","unstructured":"Lee YJ, Grauman K (2015) Predicting important objects for egocentric video summarization. Int J Comput Vis 114(1):38\u201355","journal-title":"Int J Comput Vis"},{"issue":"8","key":"15126_CR19","doi-asserted-by":"publisher","first-page":"3652","DOI":"10.1109\/TIP.2017.2695887","volume":"26","author":"X Li","year":"2017","unstructured":"Li X, Zhao B, Lu X (2017) A general framework for edited video and raw video summarization. IEEE Trans Image Process 26(8):3652\u20133664","journal-title":"IEEE Trans Image Process"},{"key":"15126_CR20","doi-asserted-by":"publisher","unstructured":"Madheswari K, Venkateswaran N (2015) Swarm intelligence based optimization in thermal image fusion using dual tree discrete wavelet transform[C] quantitative infrared thermography Asia. pp 1-20 https:\/\/doi.org\/10.21611\/qirt.2015.0101","DOI":"10.21611\/qirt.2015.0101"},{"key":"15126_CR21","doi-asserted-by":"publisher","unstructured":"Mahasseni B, Lam M and Todorovic S (2017) Unsupervised video summarization with adversarial LSTM networks. Proceedings of the IEEE conference on computer vision and pattern recognition. pp 2982-2991 https:\/\/doi.org\/10.1109\/CVPR.2017.318","DOI":"10.1109\/CVPR.2017.318"},{"issue":"2","key":"15126_CR22","doi-asserted-by":"publisher","first-page":"296","DOI":"10.1109\/TCSVT.2004.841694","volume":"15","author":"CW Ngo","year":"2005","unstructured":"Ngo CW, Ma YF, Zhang HJ (2005) Video summarization and scene detection by graph modeling. IEEE Trans Circuits Syst Video Technol 15(2):296\u2013305. https:\/\/doi.org\/10.1109\/TCSVT.2004.841694","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"issue":"4","key":"15126_CR23","doi-asserted-by":"publisher","first-page":"345","DOI":"10.1006\/jvci.1996.0030","volume":"7","author":"S Pfeioeer","year":"1996","unstructured":"Pfeioeer S, Lienhart R, Fischer S et al (1996) Abstracting digital movies automatically. J Vis Commun Image Represent 7(4):345\u2013353","journal-title":"J Vis Commun Image Represent"},{"key":"15126_CR24","doi-asserted-by":"publisher","unstructured":"Potapov D, Douze M, Harchaoui Z, Schmid C (2014) Category-specific video summarization. European Conference on Computer Vision. pp 540\u2013555 https:\/\/doi.org\/10.1007\/978-3-319-10599-4_35","DOI":"10.1007\/978-3-319-10599-4_35"},{"key":"15126_CR25","doi-asserted-by":"publisher","unstructured":"Rochan M, Ye L, Wang Y (2018) Video summarization using fully convolutional sequence networks. Proceedings of European conference on computer vision. pp 358-374. https:\/\/doi.org\/10.1007\/978-3-030-01258-8_22","DOI":"10.1007\/978-3-030-01258-8_22"},{"key":"15126_CR26","doi-asserted-by":"publisher","unstructured":"Sharghi A, Gong B and Shah M (2016) Query-focused extractive video summarization. European conference on computer vision. pp 3-19. https:\/\/doi.org\/10.1007\/978-3-319-46484-8_1","DOI":"10.1007\/978-3-319-46484-8_1"},{"key":"15126_CR27","unstructured":"Song Y, Vallmitjana J, Stent A (2015) TVSum: summarizing web videos using titles. IEEE Conference on Computer Vision and Pattern Recognition (CVPR)"},{"key":"15126_CR28","doi-asserted-by":"crossref","unstructured":"Uchihashi S, Foote J, Girgensohn A et al (1999) Video manga: generating semantically meaningful video summaries. Proceedings of the ACM international conference on multimedia. pp 383-392","DOI":"10.1145\/319463.319654"},{"key":"15126_CR29","doi-asserted-by":"publisher","unstructured":"Vasudevan AB, Gygli M, Volokitin A, Van Gool L (2017) Query-adaptive video summarization via quality aware relevance estimation. Proceedings of the 25th ACM international conference on multimedia. pp 582-590 https:\/\/doi.org\/10.1145\/3123266.3123297","DOI":"10.1145\/3123266.3123297"},{"issue":"4","key":"15126_CR30","doi-asserted-by":"publisher","first-page":"975","DOI":"10.1109\/TMM.2012.2185041","volume":"14","author":"M Wang","year":"2012","unstructured":"Wang M, Hong R, Li G, Zha ZJ, Yan S, Chua TS (2012) Event driven web video summarization by tag localization and key-shot identification. IEEE Trans Multimed 14(4):975\u2013985. https:\/\/doi.org\/10.1109\/TMM.2012.2185041","journal-title":"IEEE Trans Multimed"},{"key":"15126_CR31","doi-asserted-by":"crossref","unstructured":"Wolf W (1996) Key frame selection by motion analysis. Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing 2. pp 1228\u20131231","DOI":"10.1109\/ICASSP.1996.543588"},{"key":"15126_CR32","doi-asserted-by":"publisher","unstructured":"Xiao S, Zhao Z, Zhang Z et al (2020) Convolutional hierarchical attention network for query-focused video summarization. AAAI conference on artificial intelligence. pp 12426-12433 https:\/\/doi.org\/10.1609\/aaai.v34i07.6929","DOI":"10.1609\/aaai.v34i07.6929"},{"key":"15126_CR33","doi-asserted-by":"publisher","first-page":"5889","DOI":"10.1109\/TIP.2020.2985868","volume":"29","author":"S Xiao","year":"2020","unstructured":"Xiao S, Zhao Z, Zhang Z et al (2020) Query-biased self-attentive network for query-focused video summarization. IEEE Trans Image Process 29:5889\u20135899. https:\/\/doi.org\/10.1109\/TIP.2020.2985868","journal-title":"IEEE Trans Image Process"},{"key":"15126_CR34","doi-asserted-by":"publisher","unstructured":"Zeng M, Huang G Q (2011) Video summarization by motion analysis: using optical flow technique. Proceedings of the International Conference on Information Management, Innovation Management and Industrial Engineering, pp 205\u2013208. https:\/\/doi.org\/10.1109\/ICIII.2011.332","DOI":"10.1109\/ICIII.2011.332"},{"key":"15126_CR35","volume-title":"Research on video summarization based on semantic content understanding","author":"Y Zhang","year":"2021","unstructured":"Zhang Y (2021) Research on video summarization based on semantic content understanding. Shandong University, Thesis for Master Degree"},{"key":"15126_CR36","doi-asserted-by":"publisher","unstructured":"Zhang K, ChaoWL SF, Grauman K (2016) Video summarization with long short-term memory. European Conference on Computer Vision. pp 766\u2013782 https:\/\/doi.org\/10.1007\/978-3-319-46478-7_47","DOI":"10.1007\/978-3-319-46478-7_47"},{"key":"15126_CR37","unstructured":"Zhang Y, Kampffmeyer M, Liang X et al (2018) Query-conditioned three-player adversarial network for video summarization. arXiv preprint arXiv:1807.06677."},{"key":"15126_CR38","doi-asserted-by":"publisher","first-page":"663","DOI":"10.1109\/LSP.2021.3066349","volume":"28","author":"R Zhong","year":"2021","unstructured":"Zhong R, Wang R, Zou YZ et al (2021) Graph attention networks adjusted bi-LSTM for video summarization. IEEE Sign Proc Lett 28:663\u2013667. https:\/\/doi.org\/10.1109\/LSP.2021.3066349","journal-title":"IEEE Sign Proc Lett"},{"key":"15126_CR39","doi-asserted-by":"crossref","unstructured":"Zhou K, Qiao Y and Xiang T (2017) Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. arXiv preprint arXiv:1801.00054","DOI":"10.1609\/aaai.v32i1.12255"},{"key":"15126_CR40","doi-asserted-by":"publisher","unstructured":"Zhuang Y, Rui Y, Huang TS et al (1988) Adaptive key frame extraction using unsupervised clustering. Proceedings of the international conference on image processing. pp 866-870. https:\/\/doi.org\/10.1109\/ICIP.1998.723655","DOI":"10.1109\/ICIP.1998.723655"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-15126-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-023-15126-1\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-15126-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,10,3]],"date-time":"2023-10-03T09:28:46Z","timestamp":1696325326000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-023-15126-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,3,22]]},"references-count":40,"journal-issue":{"issue":"24","published-print":{"date-parts":[[2023,10]]}},"alternative-id":["15126"],"URL":"https:\/\/doi.org\/10.1007\/s11042-023-15126-1","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,3,22]]},"assertion":[{"value":"16 December 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"25 November 2022","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"13 March 2023","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 March 2023","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"No conflicts of interests about the publication by all authors.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}