{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,12]],"date-time":"2026-01-12T22:22:55Z","timestamp":1768256575111,"version":"3.49.0"},"reference-count":21,"publisher":"Springer Science and Business Media LLC","issue":"22","license":[{"start":{"date-parts":[[2024,1,6]],"date-time":"2024-01-06T00:00:00Z","timestamp":1704499200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,1,6]],"date-time":"2024-01-06T00:00:00Z","timestamp":1704499200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"DOI":"10.1007\/s11042-023-17985-0","type":"journal-article","created":{"date-parts":[[2024,1,6]],"date-time":"2024-01-06T04:22:06Z","timestamp":1704514926000},"page":"61451-61467","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":3,"title":["CSMB-VSS: video scene segmentation with cosine similarity matrix"],"prefix":"10.1007","volume":"83","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-2766-2031","authenticated-orcid":false,"given":"Zeyu","family":"Chen","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinbo","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ji","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yi","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiang","family":"Cao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,1,6]]},"reference":[{"key":"17985_CR1","doi-asserted-by":"crossref","unstructured":"Guru D, Suhil M (2013) Histogram based split and merge framework for shot boundary detection. In: Mining intelligence and knowledge exploration: first international conference, MIKE 2013, Tamil Nadu, India, December 18-20, 2013. Proceedings, pp 180\u2013191. Springer","DOI":"10.1007\/978-3-319-03844-5_19"},{"key":"17985_CR2","unstructured":"Sou\u010dek T, Loko\u010d J (2020) Transnet v2: an effective deep network architecture for fast shot transition detection. arXiv:2008.04838"},{"key":"17985_CR3","doi-asserted-by":"crossref","unstructured":"Chen S, Nie X, Fan D, Zhang D, Bhat V, Hamid R (2021) Shot contrastive self-supervised learning for scene boundary detection. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 9796\u20139805","DOI":"10.1109\/CVPR46437.2021.00967"},{"key":"17985_CR4","doi-asserted-by":"crossref","unstructured":"Rao A, Xu L, Xiong Y, Xu G, Huang Q, Zhou B, Lin D (2020) A local-to-global approach to multi-modal movie scene segmentation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 10146\u201310155","DOI":"10.1109\/CVPR42600.2020.01016"},{"key":"17985_CR5","doi-asserted-by":"crossref","unstructured":"Wu H, Chen K, Luo Y, Qiao R, Ren B, Liu H, Xie W, Shen L (2022) Scene consistency representation learning for video scene segmentation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 14021\u201314030","DOI":"10.1109\/CVPR52688.2022.01363"},{"key":"17985_CR6","unstructured":"Mun J, Shin M, Han G, Lee S, Ha S, Lee J, Kim E-S (2022) Boundary-aware self-supervised learning for video scene segmentation. arXiv:2201.05277"},{"key":"17985_CR7","doi-asserted-by":"crossref","unstructured":"Yang Y, Huang Y, Guo W, Xu B, Xia D (2023) Towards global video scene segmentation with context-aware transformer. In: Proceedings of the AAAI conference on artificial intelligence, vol 37, pp 3206\u20133213","DOI":"10.1609\/aaai.v37i3.25426"},{"key":"17985_CR8","doi-asserted-by":"crossref","unstructured":"Huang Q, Xiong Y, Rao A, Wang J, Lin D (2020) Movienet: a holistic dataset for movie understanding. In: European conference on computer vision, pp 709\u2013727. Springer","DOI":"10.1007\/978-3-030-58548-8_41"},{"key":"17985_CR9","unstructured":"Sou\u010dek T, Moravec J, Loko\u010d J (2019) Transnet: a deep network for fast detection of common shot transitions. arXiv:1906.03363"},{"issue":"8","key":"17985_CR10","doi-asserted-by":"publisher","first-page":"4009","DOI":"10.1007\/s11760-023-02631-x","volume":"17","author":"MK Kelishadrokhi","year":"2023","unstructured":"Kelishadrokhi MK, Ghattaei M, Fekri-Ershad S (2023) Innovative local texture descriptor in joint of human-based color features for content-based image retrieval. SIViP 17(8):4009\u20134017","journal-title":"SIViP"},{"issue":"5","key":"17985_CR11","doi-asserted-by":"publisher","first-page":"991","DOI":"10.1007\/s11760-018-1244-6","volume":"12","author":"S Protasov","year":"2018","unstructured":"Protasov S, Khan AM, Sozykin K, Ahmad M (2018) Using deep features for video scene detection and annotation. SIViP 12(5):991\u2013999","journal-title":"SIViP"},{"issue":"8","key":"17985_CR12","doi-asserted-by":"publisher","first-page":"1163","DOI":"10.1109\/TCSVT.2011.2138830","volume":"21","author":"P Sidiropoulos","year":"2011","unstructured":"Sidiropoulos P, Mezaris V, Kompatsiaris I, Meinedo H, Bugalho M, Trancoso I (2011) Temporal video segmentation to scenes using high-level audiovisual features. IEEE Trans Circuits Syst Video Technol 21(8):1163\u20131177","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"17985_CR13","doi-asserted-by":"crossref","unstructured":"Rasheed Z, Shah M (2003) Scene detection in hollywood movies and tv shows. In: 2003 IEEE computer society conference on computer vision and pattern recognition, 2003. Proceedings, vol 2, p 343. IEEE","DOI":"10.1109\/CVPR.2003.1211489"},{"issue":"1","key":"17985_CR14","doi-asserted-by":"publisher","first-page":"89","DOI":"10.1109\/TMM.2008.2008924","volume":"11","author":"VT Chasanis","year":"2008","unstructured":"Chasanis VT, Likas AC, Galatsanos NP (2008) Scene detection in videos using shot clustering and sequence alignment. IEEE Trans Multimedia 11(1):89\u2013100","journal-title":"IEEE Trans Multimedia"},{"key":"17985_CR15","doi-asserted-by":"crossref","unstructured":"Rotman D, Porat D, Ashour G (2016) Robust and efficient video scene detection using optimal sequential grouping. In: 2016 IEEE international symposium on multimedia (ISM), pp 275\u2013280. IEEE","DOI":"10.1109\/ISM.2016.0061"},{"key":"17985_CR16","doi-asserted-by":"crossref","unstructured":"Han B, Wu W (2011) Video scene segmentation using a novel boundary evaluation criterion and dynamic programming. In: 2011 IEEE international conference on multimedia and expo, pp 1\u20136. IEEE","DOI":"10.1109\/ICME.2011.6012001"},{"key":"17985_CR17","doi-asserted-by":"crossref","unstructured":"Tapaswi M, Bauml M, Stiefelhagen R (2014) Storygraphs: visualizing character interactions as a timeline. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 827\u2013834","DOI":"10.1109\/CVPR.2014.111"},{"key":"17985_CR18","unstructured":"Das A, Das PP (2020) Incorporating domain knowledge to improve topic segmentation of long mooc lecture videos. arXiv:2012.07589"},{"key":"17985_CR19","unstructured":"Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J, et al (2021) Learning transferable visual models from natural language supervision. In: International conference on machine learning, pp 8748\u20138763. PMLR"},{"key":"17985_CR20","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 770\u2013778","DOI":"10.1109\/CVPR.2016.90"},{"key":"17985_CR21","doi-asserted-by":"crossref","unstructured":"Baraldi L, Grana C, Cucchiara R (2015) A deep siamese network for scene detection in broadcast videos. In: Proceedings of the 23rd ACM international conference on multimedia, pp 1199\u20131202","DOI":"10.1145\/2733373.2806316"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-17985-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-023-17985-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-17985-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,7]],"date-time":"2024-11-07T14:56:08Z","timestamp":1730991368000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-023-17985-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,1,6]]},"references-count":21,"journal-issue":{"issue":"22","published-online":{"date-parts":[[2024,7]]}},"alternative-id":["17985"],"URL":"https:\/\/doi.org\/10.1007\/s11042-023-17985-0","relation":{},"ISSN":["1573-7721"],"issn-type":[{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,1,6]]},"assertion":[{"value":"31 July 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 November 2023","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"25 December 2023","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"6 January 2024","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no conflict of interest","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest\/Competing interests"}}]}}