{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,19]],"date-time":"2026-03-19T23:59:09Z","timestamp":1773964749344,"version":"3.50.1"},"reference-count":41,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Knowledge-Based Systems"],"published-print":{"date-parts":[[2026,4]]},"DOI":"10.1016\/j.knosys.2026.115566","type":"journal-article","created":{"date-parts":[[2026,2,17]],"date-time":"2026-02-17T20:06:04Z","timestamp":1771358764000},"page":"115566","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Multi-video summarization with vision-language models and hybrid optimization"],"prefix":"10.1016","volume":"339","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-0274-4121","authenticated-orcid":false,"given":"Aziz M.","family":"Qaroush","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Abdelrahman","family":"Hamza","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ahmad","family":"Eiss","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yousef","family":"Hatem","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"78","reference":[{"issue":"4","key":"10.1016\/j.knosys.2026.115566_bib0001","doi-asserted-by":"crossref","DOI":"10.1145\/3458928","article-title":"VSumVis: interactive visual understanding and diagnosis of video summarization model","volume":"12","author":"Sun","year":"2021","journal-title":"ACM Trans. Intell. Syst. Technol."},{"key":"10.1016\/j.knosys.2026.115566_bib0002","series-title":"2022 IEEE Symposium Series on Computational Intelligence (SSCI)","first-page":"672","article-title":"Efficient video summarization for smart surveillance systems","author":"Muhammad","year":"2022"},{"issue":"4","key":"10.1016\/j.knosys.2026.115566_bib0003","doi-asserted-by":"crossref","DOI":"10.1016\/j.ipm.2024.103734","article-title":"Meeting the challenge: a benchmark corpus for automated urdu meeting summarization","volume":"61","author":"Sadia","year":"2024","journal-title":"Inf. Process. Manage."},{"issue":"2","key":"10.1016\/j.knosys.2026.115566_bib0004","doi-asserted-by":"crossref","DOI":"10.1145\/3709001","article-title":"A novel intelligent video surveillance system using low-Traffic scene-Preserving video anonymization","volume":"16","author":"Huh","year":"2025","journal-title":"ACM Trans. Intell. Syst. Technol."},{"key":"10.1016\/j.knosys.2026.115566_bib0005","first-page":"1","article-title":"A comprehensive study of automatic video summarization techniques","author":"Gupta","year":"2023","journal-title":"Artif. Intell. Rev."},{"key":"10.1016\/j.knosys.2026.115566_bib0006","doi-asserted-by":"crossref","first-page":"3591","DOI":"10.1007\/s13042-023-01852-3","article-title":"Multi video summarization using query based deep optimization algorithm","volume":"14","author":"Ansari","year":"2023","journal-title":"Int. J. Mach. Learn. Cybern."},{"key":"10.1016\/j.knosys.2026.115566_bib0007","doi-asserted-by":"crossref","unstructured":"T. Alaa, A. Mongy, A. Bakr, M. Diab, W. Gomaa, Video Summarization Techniques: A Comprehensive Review, 2024, arXiv:2410.04449.","DOI":"10.5220\/0012936400003822"},{"key":"10.1016\/j.knosys.2026.115566_bib0008","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2020.107567","article-title":"A comprehensive survey of multi-view video summarization","volume":"109","author":"Hussain","year":"2021","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.knosys.2026.115566_bib0009","unstructured":"R. Raj, V. Bhatnagar, A.K. Singh, S. Mane, N. Walde, Video Summarization: Study of various techniques, 2021, arXiv:2101.08434."},{"issue":"2","key":"10.1016\/j.knosys.2026.115566_bib0010","doi-asserted-by":"crossref","first-page":"2905","DOI":"10.32604\/cmc.2025.065421","article-title":"Rethinking chart understanding using multimodal large language models","volume":"84","author":"Tanas\u0103","year":"2025","journal-title":"Comp., Mater. Continua"},{"key":"10.1016\/j.knosys.2026.115566_bib0011","unstructured":"A. Radford, J.W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, I. Sutskever, Learning Transferable Visual Models From Natural Language Supervision, 2021, arXiv:2103.00020."},{"key":"10.1016\/j.knosys.2026.115566_bib0012","doi-asserted-by":"crossref","unstructured":"Y. Ma, G. Xu, X. Sun, M. Yan, J. Zhang, R. Ji, X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval, 2022, arXiv:2207.07285.","DOI":"10.1145\/3503161.3547910"},{"key":"10.1016\/j.knosys.2026.115566_bib0013","doi-asserted-by":"crossref","unstructured":"C. Li, H. Xu, J. Tian, W. Wang, M. Yan, B. Bi, J. Ye, H. Chen, G. Xu, Z. Cao, J. Zhang, S. Huang, F. Huang, J. Zhou, L. Si, mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections, 2022, arXiv:2205.12005.","DOI":"10.18653\/v1\/2022.emnlp-main.488"},{"issue":"3","key":"10.1016\/j.knosys.2026.115566_bib0014","article-title":"Transforming product discovery and interpretation using vision-language models","volume":"20","author":"Oprea","year":"2025","journal-title":"J. Theor. Appl. Electr. Commerce Res."},{"key":"10.1016\/j.knosys.2026.115566_bib0015","series-title":"2009 IEEE International Conference on Multimedia and Expo","first-page":"1326","article-title":"Multi-document video summarization","author":"Wang","year":"2009"},{"key":"10.1016\/j.knosys.2026.115566_bib0016","series-title":"11Th International Workshop on Image Analysis for Multimedia Interactive Services WIAMIS 10","first-page":"1","article-title":"Multi-video summarization based on video-mmr","author":"Li","year":"2010"},{"key":"10.1016\/j.knosys.2026.115566_bib0017","doi-asserted-by":"crossref","DOI":"10.1007\/s11760-018-1376-8","article-title":"Key frame extraction for video summarization using local description and repeatability graph clustering","volume":"13","author":"Gharbi","year":"2019","journal-title":"Signal Image Video Process."},{"key":"10.1016\/j.knosys.2026.115566_bib0018","article-title":"Static video summarization using multi-CNN with sparse autoencoder and random forest classifier","volume":"15","author":"Madhu","year":"2021","journal-title":"Signal Image Video Process."},{"issue":"9","key":"10.1016\/j.knosys.2026.115566_bib0019","doi-asserted-by":"crossref","DOI":"10.3390\/computers12090186","article-title":"Video summarization based on feature fusion and data augmentation","volume":"12","author":"Psallidas","year":"2023","journal-title":"Computers"},{"key":"10.1016\/j.knosys.2026.115566_bib0020","doi-asserted-by":"crossref","first-page":"1030","DOI":"10.35940\/ijrte.B4043.079220","article-title":"Video summarization using keyframe extraction methods","volume":"9","author":"Mushan","year":"2020","journal-title":"Int. J. Recent Technol. Eng. (IJRTE)"},{"issue":"9","key":"10.1016\/j.knosys.2026.115566_bib0021","doi-asserted-by":"crossref","first-page":"2010","DOI":"10.1109\/TMM.2017.2708981","article-title":"Multi-View surveillance video summarization via joint embedding and sparse optimization","volume":"19","author":"Panda","year":"2017","journal-title":"IEEE Trans. Multimedia"},{"issue":"10","key":"10.1016\/j.knosys.2026.115566_bib0022","doi-asserted-by":"crossref","first-page":"4712","DOI":"10.1109\/TIP.2017.2708902","article-title":"Diversity-aware multi-video summarization","volume":"26","author":"Panda","year":"2017","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.knosys.2026.115566_bib0023","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2025.128631","article-title":"Maximum relevant diversity aware, multi-video summarization using clustering and evolutionally multi-objective optimization","volume":"292","author":"Qaroush","year":"2025","journal-title":"Expert Syst. Appl."},{"issue":"6","key":"10.1016\/j.knosys.2026.115566_bib0024","doi-asserted-by":"crossref","DOI":"10.1016\/j.ipm.2025.104276","article-title":"Graph-based centrality framework for effective multi-video summarization","volume":"62","author":"Qaroush","year":"2025","journal-title":"Inf. Process. Manage."},{"key":"10.1016\/j.knosys.2026.115566_bib0025","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2025.131180","article-title":"A novel supervised framework for multi-video summarization: addressing dataset biases and enhancing feature representation","volume":"653","author":"Qaroush","year":"2025","journal-title":"Neurocomputing"},{"key":"10.1016\/j.knosys.2026.115566_bib0026","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2020.107382","article-title":"Dynamic graph convolutional network for multi-video summarization","volume":"107","author":"Wu","year":"2020","journal-title":"Pattern Recognit."},{"issue":"1","key":"10.1016\/j.knosys.2026.115566_bib0027","doi-asserted-by":"crossref","first-page":"77","DOI":"10.1109\/TII.2019.2929228","article-title":"Cloud-assisted multiview video summarization using CNN and bidirectional LSTM","volume":"16","author":"Hussain","year":"2019","journal-title":"IEEE Trans. Ind. Inf."},{"key":"10.1016\/j.knosys.2026.115566_bib0028","series-title":"Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision","first-page":"339","article-title":"Multi-stream dynamic video summarization","author":"Elfeki","year":"2022"},{"issue":"6","key":"10.1016\/j.knosys.2026.115566_bib0029","doi-asserted-by":"crossref","first-page":"2654","DOI":"10.1109\/TIP.2018.2889265","article-title":"User-Ranking video summarization with multi-Stage spatio-temporal representation","volume":"28","author":"Huang","year":"2019","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.knosys.2026.115566_bib0030","doi-asserted-by":"crossref","first-page":"3013","DOI":"10.1109\/TIP.2023.3275069","article-title":"Video summarization with spatiotemporal vision transformer","volume":"32","author":"Hsu","year":"2023","journal-title":"Trans. Img. Proc."},{"key":"10.1016\/j.knosys.2026.115566_bib0031","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2024.123568","article-title":"Attention-guided multi-granularity fusion model for video summarization","volume":"249","author":"Zhang","year":"2024","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.knosys.2026.115566_bib0032","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2024.111670","article-title":"Video summarization via knowledge-aware multimodal deep networks","volume":"293","author":"Xie","year":"2024","journal-title":"Knowl. Based Syst."},{"key":"10.1016\/j.knosys.2026.115566_bib0033","article-title":"VSS-Net: Visual semantic self-mining network for video summarization","volume":"PP","author":"Zhang","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.knosys.2026.115566_bib0034","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2025.127128","article-title":"Multi-Temporal granularity concept induction for semantically driven video summarization","volume":"276","author":"Huang","year":"2025","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.knosys.2026.115566_bib0035","series-title":"2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)","first-page":"1","article-title":"Multi-Modal video summarization based on two-Stage fusion of audio, visual, and recognized text information","author":"Yang","year":"2024"},{"key":"10.1016\/j.knosys.2026.115566_bib0036","series-title":"Proceedings of the 5Th IEEE Consumer Communications and Networking Conference (CCNC)","first-page":"1112","article-title":"On using clustering algorithms to produce video abstracts for the web scenario","author":"Furini","year":"2008"},{"key":"10.1016\/j.knosys.2026.115566_bib0037","unstructured":"S. Xie, C. Sun, J. Huang, Z. Tu, K. Murphy, Rethinking spatiotemporal feature learning for video understanding, arXiv:1712.04851 (2017). 10.48550\/arXiv.1712.04851."},{"key":"10.1016\/j.knosys.2026.115566_bib0038","series-title":"Proceedings of the 10Th ACM International Conference on Advances in Mobile Computing and Multimedia (MoMM \u201912)","first-page":"376","article-title":"Evaluating the impact of frame rate on video based human action recognition","author":"Harjanto","year":"2012"},{"key":"10.1016\/j.knosys.2026.115566_bib0039","series-title":"2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"4724","article-title":"Quo vadis, action recognition? a new model and the kinetics dataset","author":"Carreira","year":"2017"},{"key":"10.1016\/j.knosys.2026.115566_bib0040","series-title":"IOP Conference Series: Materials Science and Engineering","first-page":"012001","article-title":"Index point detection for text summarization using cosine similarity in educational videos","volume":"1131","author":"Sharma","year":"2021"},{"key":"10.1016\/j.knosys.2026.115566_bib0041","series-title":"Proceedings of the 2009IEEE International Conference on Multimedia and Expo (ICME)","first-page":"1326","article-title":"Multi-Document video summarization","author":"Wang","year":"2009"}],"container-title":["Knowledge-Based Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0950705126003084?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0950705126003084?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,3,19]],"date-time":"2026-03-19T21:33:52Z","timestamp":1773956032000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0950705126003084"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,4]]},"references-count":41,"alternative-id":["S0950705126003084"],"URL":"https:\/\/doi.org\/10.1016\/j.knosys.2026.115566","relation":{},"ISSN":["0950-7051"],"issn-type":[{"value":"0950-7051","type":"print"}],"subject":[],"published":{"date-parts":[[2026,4]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Multi-video summarization with vision-language models and hybrid optimization","name":"articletitle","label":"Article Title"},{"value":"Knowledge-Based Systems","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.knosys.2026.115566","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"115566"}}