{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,25]],"date-time":"2026-03-25T14:38:55Z","timestamp":1774449535963,"version":"3.50.1"},"reference-count":51,"publisher":"Springer Science and Business Media LLC","issue":"20","license":[{"start":{"date-parts":[[2023,3,20]],"date-time":"2023-03-20T00:00:00Z","timestamp":1679270400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,3,20]],"date-time":"2023-03-20T00:00:00Z","timestamp":1679270400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2023,8]]},"DOI":"10.1007\/s11042-023-14953-6","type":"journal-article","created":{"date-parts":[[2023,3,20]],"date-time":"2023-03-20T07:02:55Z","timestamp":1679295775000},"page":"31539-31556","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":7,"title":["Multimodal early fusion operators for temporal video scene segmentation tasks"],"prefix":"10.1007","volume":"82","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-9626-0031","authenticated-orcid":false,"given":"Antonio A. R.","family":"Beserra","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Rudinei","family":"Goularte","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2023,3,20]]},"reference":[{"key":"14953_CR1","doi-asserted-by":"crossref","unstructured":"Abdel-Hakim AE, Farag AA (2006) Csift: a sift descriptor with color invariant characteristics. In: 2006 IEEE Computer society conference on computer vision and pattern recognition (CVPR\u201906), vol 2. pp 1978\u20131983","DOI":"10.1109\/CVPR.2006.95"},{"key":"14953_CR2","unstructured":"Arthur D, Vassilvitskii S (2006) k-means++: The advantages of careful seeding. Technical Report 2006-13, Stanford InfoLab. Accessed 17 December 2021. http:\/\/ilpubs.stanford.edu:8090\/778\/"},{"key":"14953_CR3","doi-asserted-by":"publisher","unstructured":"Baraldi L, Grana C, Cucchiara R (2015a) A deep siamese network for scene detection in broadcast videos. In: Proceedings of the 23rd ACM international conference on multimedia, MM \u201915. Association for Computing Machinery, New York, pp 1199\u20131202, DOI https:\/\/doi.org\/10.1145\/2733373.2806316","DOI":"10.1145\/2733373.2806316"},{"key":"14953_CR4","doi-asserted-by":"publisher","unstructured":"Baraldi L, Grana C, Cucchiara R (2015b) Measuring scene detection performance. In: Pattern recognition and image analysis, Springer International Publishing, pp 395\u2013403. https:\/\/doi.org\/10.1007\/978-3-319-19390-8_45","DOI":"10.1007\/978-3-319-19390-8_45"},{"key":"14953_CR5","first-page":"113","volume-title":"Evaluating early fusion operators at mid-level feature space, WebMedia \u201920","author":"AAR Beserra","year":"2020","unstructured":"Beserra AAR, Kishi RM, Goularte R (2020) Evaluating early fusion operators at mid-level feature space, WebMedia \u201920. Association for Computing Machinery, New York, pp 113\u2013120"},{"key":"14953_CR6","first-page":"165","volume":"113885","author":"R Bokade","year":"2021","unstructured":"Bokade R, Navato A, Ouyang R, Jin X, Chou CA, Ostadabbas S, Mueller AV (2021) A cross-disciplinary comparison of multimodal data fusion approaches and applications: Accelerating learning through trans-disciplinary information sharing. Expert Syst Appl 113885:165","journal-title":"Expert Syst Appl"},{"key":"14953_CR7","doi-asserted-by":"publisher","unstructured":"Chen S, Zhu X, Hao D, Liu W, Liu J, Zhao Z, Guo L, Liu J (2021) Mm21 pre-training for video understanding challenge: Video captioning with pretraining techniques. In: Proceedings of the 29th ACM international conference on multimedia, MM \u201921. Association for Computing Machinery, New York, pp 4853\u20134857, DOI https:\/\/doi.org\/10.1145\/3474085.3479216","DOI":"10.1145\/3474085.3479216"},{"key":"14953_CR8","unstructured":"Csurka G, Dance C, Fan L, Willamowski J, Bray C (2004) Visual categorization with bags of keypoints. In: Workshop on statistical learning in computer vision, vol 1. ECCV, Prague, pp 1\u201322"},{"key":"14953_CR9","doi-asserted-by":"publisher","unstructured":"Dusmanu M, Rocco I, Pajdla T, Pollefeys M, Sivic J, Torii A, Sattler T (2019) D2-net: a trainable CNN for joint description and detection of local features. In: 2019 IEEE\/CVF Conference on computer vision and pattern recognition (CVPR), IEEE, DOI https:\/\/doi.org\/10.1109\/cvpr.2019.00828","DOI":"10.1109\/cvpr.2019.00828"},{"key":"14953_CR10","doi-asserted-by":"crossref","unstructured":"Gaonkar A, Chukkapalli Y, Raman PJ, Srikanth S, Gurugopinath S (2021) A comprehensive survey on multimodal data representation and information fusion algorithms. In: 2021 International conference on intelligent technologies (CONIT), IEEE","DOI":"10.1109\/CONIT51480.2021.9498415"},{"key":"14953_CR11","unstructured":"Ghauri J, Hakimov S, Ewerth R (2020) Classification of important segments in educational videos using multimodal features. vol. 2699"},{"issue":"1","key":"14953_CR12","doi-asserted-by":"crossref","first-page":"197","DOI":"10.1177\/000271626536000140","volume":"360","author":"BM Gross","year":"1965","unstructured":"Gross BM (1965) The managing of organizations: the administrative struggle, vols. i and ii. Ann Am Acad Polit Soc Sci 360(1):197\u2013198","journal-title":"Ann Am Acad Polit Soc Sci"},{"issue":"1","key":"14953_CR13","doi-asserted-by":"publisher","first-page":"55","DOI":"10.1007\/s00530-017-0535-z","volume":"24","author":"M G\u00fcder","year":"2017","unstructured":"G\u00fcder M, \u00c7i\u00e7ekli NK (2017) Multi-modal video event recognition based on association rules and decision fusion. Multimed Syst 24(1):55\u201372. https:\/\/doi.org\/10.1007\/s00530-017-0535-z","journal-title":"Multimed Syst"},{"key":"14953_CR14","doi-asserted-by":"publisher","unstructured":"Han B, Wu W (2011) Video scene segmentation using a novel boundary evaluation criterion and dynamic programming. In: 2011 IEEE International conference on multimedia and expo, IEEE, DOI https:\/\/doi.org\/10.1109\/icme.2011.6012001","DOI":"10.1109\/icme.2011.6012001"},{"issue":"1","key":"14953_CR15","doi-asserted-by":"publisher","first-page":"33","DOI":"10.1007\/s00138-013-0567-0","volume":"25","author":"IH Jhuo","year":"2014","unstructured":"Jhuo IH, Ye G, Gao S, Liu D, Jiang YG, Lee DT, Chang SF (2014) Discovering joint audio\u2013visual codewords for video event detection. Mach Vis Appl 25(1):33\u201347. https:\/\/doi.org\/10.1007\/s00138-013-0567-0","journal-title":"Mach Vis Appl"},{"issue":"C","key":"14953_CR16","doi-asserted-by":"publisher","first-page":"114","DOI":"10.1016\/j.sigpro.2018.01.028","volume":"148","author":"Z Ji","year":"2018","unstructured":"Ji Z, Zhang Y, Pang Y, Li X (2018) Hypergraph dominant set based multi-video summarization. Sig Process 148(C):114\u2013123","journal-title":"Sig Process"},{"issue":"11","key":"14953_CR17","doi-asserted-by":"publisher","first-page":"15623","DOI":"10.1007\/s11042-018-6959-4","volume":"78","author":"RM Kishi","year":"2019","unstructured":"Kishi RM, Trojahn TH, Goularte R (2019) Correlation based feature fusion for the temporal video scene segmentation task. Multimed Tools Appl 78 (11):15623\u201315646","journal-title":"Multimed Tools Appl"},{"key":"14953_CR18","doi-asserted-by":"crossref","unstructured":"Koprinska I, Carrato S (2001) Temporal video segmentation: a survey. In: Signal processing: image communication, pp 477\u2013500","DOI":"10.1016\/S0923-5965(00)00011-4"},{"key":"14953_CR19","doi-asserted-by":"crossref","unstructured":"Kumar A, Sharma A, Kalia A (2020) A review of research of object detection area: current and future trends. In: Proceedings of ICETIT, vol 2019. Springer, Cham, pp 206\u2013218","DOI":"10.1007\/978-3-030-30577-2_17"},{"key":"14953_CR20","first-page":"1","volume":"5","author":"B Lopes","year":"2014","unstructured":"Lopes B, Trojahn T, Goularte R (2014) Video scene detection by multimodal bag of features. J Inf Data Manag 5:1","journal-title":"J Inf Data Manag"},{"key":"14953_CR21","unstructured":"Media kix (2018) The 11 biggest statistics to know about youtubers, content creators, & the youtube community. https:\/\/mediakix.com\/blog\/youtuber-statistics-content-creators-demographics\/. Accessed 25 May 2020"},{"key":"14953_CR22","doi-asserted-by":"crossref","unstructured":"M\u00fcnzer B, Schoeffmann K (2018) Video browsing on a circular timeline. In: Multimedia modeling. Springer, Cham, pp 395\u2013399","DOI":"10.1007\/978-3-319-73600-6_40"},{"key":"14953_CR23","doi-asserted-by":"publisher","unstructured":"Pei Y, Wang Z, Chen H, Huang B, Tu W (2021) Video scene detection based on link prediction using graph convolution network. In: Proceedings of the 2nd ACM international conference on multimedia in Asia, ACM, DOI https:\/\/doi.org\/10.1145\/3444685.3446293","DOI":"10.1145\/3444685.3446293"},{"key":"14953_CR24","unstructured":"Pereira Jr O, Ferraz CT, Gonzaga A (2018) Image correspondence using a fusion of local region descriptors. In: XIV Workshop de Vis\u00e3o Computacional"},{"key":"14953_CR25","doi-asserted-by":"crossref","unstructured":"Rao A, Xu L, Xiong Y, Xu G, Huang Q, Zhou B, Lin D (2020) A local-to-global approach to multi-modal movie scene segmentation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 10146\u201310155","DOI":"10.1109\/CVPR42600.2020.01016"},{"key":"14953_CR26","volume-title":"Information retrieval","author":"CJV Rijsbergen","year":"1979","unstructured":"Rijsbergen CJV (1979) Information retrieval, 2nd edn. Butterworth-Heinemann, USA","edition":"2nd edn."},{"key":"14953_CR27","doi-asserted-by":"crossref","unstructured":"Rothfuss D, M\u00fcnster P, Zimmermann G (2019) Design guidelines for adaptable videos and video players on the web. In: Advances in design for inclusion. Springer, Cham, pp 229\u2013240","DOI":"10.1007\/978-3-319-94622-1_22"},{"key":"14953_CR28","doi-asserted-by":"crossref","unstructured":"Rotman D, Porat D, Ashour G (2017a) Robust and efficient video scene detection using optimal sequential grouping. In: Institute of Electrical and Electronics Engineers Inc., pp 275\u2013280","DOI":"10.1109\/ISM.2016.0061"},{"key":"14953_CR29","doi-asserted-by":"publisher","unstructured":"Rotman D, Porat D, Ashour G (2017b) Robust video scene detection using multimodal fusion of optimally grouped features. In: 2017 IEEE 19th international workshop on multimedia signal processing (MMSP), IEEE, DOI https:\/\/doi.org\/10.1109\/mmsp.2017.8122267","DOI":"10.1109\/mmsp.2017.8122267"},{"key":"14953_CR30","doi-asserted-by":"crossref","unstructured":"Saraceno C, Leonardi R (1997) Audio as a support to scene change detection and characterization of video sequences. In: 1997 IEEE International conference on acoustics, speech, and signal processing, vol. 4, pp 2597\u20132600","DOI":"10.1109\/ICASSP.1997.595320"},{"key":"14953_CR31","doi-asserted-by":"crossref","unstructured":"Schoeffmann K (2019) Video browser showdown 2012-2019: a review. In: 2019 International conference on content-based multimedia indexing (CBMI), pp 1\u20134","DOI":"10.1109\/CBMI.2019.8877397"},{"key":"14953_CR32","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-13-6098-5","volume-title":"Audio processing and speech recognition","author":"S Sen","year":"2019","unstructured":"Sen S, Dutta A, Dey N (2019) Audio processing and speech recognition. Springer, Singapore"},{"issue":"12","key":"14953_CR33","doi-asserted-by":"publisher","first-page":"1349","DOI":"10.1109\/34.895972","volume":"22","author":"AWM Smeulders","year":"2000","unstructured":"Smeulders AWM, Worring M, Santini S, Gupta A, Jain R (2000) Content-based image retrieval at the end of the early years. IEEE Trans Pattern Anal Mach Intell 22(12):1349\u20131380","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"14953_CR34","unstructured":"Snoek CGM, Worring M (2002) A review on multimodal video indexing. In: Proceedings IEEE international conference on multimedia and expo, vol. 2, pp 21\u201324"},{"key":"14953_CR35","doi-asserted-by":"publisher","unstructured":"Snoek CGM, Worring M, Smeulders AWM (2005) Early versus late fusion in semantic video analysis. In: Proceedings of the 13th annual ACM international conference on multimedia, MULTIMEDIA \u201905. Association for Computing Machinery, New York, pp 399\u2013402, DOI https:\/\/doi.org\/10.1145\/1101149.1101236","DOI":"10.1145\/1101149.1101236"},{"key":"14953_CR36","doi-asserted-by":"publisher","first-page":"103557","DOI":"10.1016\/j.engappai.2020.103557","volume":"90","author":"N Spola\u00f4r","year":"2020","unstructured":"Spola\u00f4r N, Lee HD, Takaki WSR, Ensina LA, Coy CSR, Wu FC (2020) A systematic review on content-based video retrieval. Eng Appl Artif Intell 90:103557. https:\/\/doi.org\/10.1016\/j.engappai.2020.103557. http:\/\/www.sciencedirect.com\/science\/article\/pii\/S09521976203_00488","journal-title":"Eng Appl Artif Intell"},{"key":"14953_CR37","doi-asserted-by":"crossref","unstructured":"Thounaojam DM, Trivedi A, Manglem Singh K, Roy S (2014) A survey on video segmentation. In: Intelligent computing, networking, and informatics. Springer, New Delhi, pp 903\u2013912","DOI":"10.1007\/978-81-322-1665-0_91"},{"issue":"12","key":"14953_CR38","doi-asserted-by":"publisher","first-page":"17487","DOI":"10.1007\/s11042-020-10450-2","volume":"80","author":"TH Trojahn","year":"2021","unstructured":"Trojahn TH, Goularte R (2021) Temporal video scene segmentation using deep-learning. Multimed Tools Appl 80(12):17487\u201317513. https:\/\/doi.org\/10.1007\/s11042-020-10450-2","journal-title":"Multimed Tools Appl"},{"issue":"1","key":"14953_CR39","doi-asserted-by":"publisher","first-page":"60","DOI":"10.1109\/TMM.2010.2091400","volume":"13","author":"KEA van de Sande","year":"2011","unstructured":"van de Sande KEA, Gevers T, Snoek CGM (2011) Empowering visual categorization with the gpu. IEEE Trans Multimed 13(1):60\u201370. http:\/\/www.science.uva.nl\/research\/publications\/2011\/vandeSandeITM2011","journal-title":"IEEE Trans Multimed"},{"key":"14953_CR40","doi-asserted-by":"publisher","unstructured":"Vembu A, Natarajan P, Wu S, Prasad R, Natarajan P (2013) Graph based multimodal word clustering for video event detection. In: 2013 IEEE International conference on acoustics, speech and signal processing, IEEE, pp 3667\u20133671, DOI https:\/\/doi.org\/10.1109\/icassp.2013.6638342","DOI":"10.1109\/icassp.2013.6638342"},{"issue":"4","key":"14953_CR41","doi-asserted-by":"publisher","first-page":"492","DOI":"10.1109\/TMM.2002.802021","volume":"4","author":"J Vendrig","year":"2002","unstructured":"Vendrig J, Worring M (2002) Systematic evaluation of logical story unit segmentation. IEEE Trans Multimedia 4(4):492\u2013499","journal-title":"IEEE Trans Multimedia"},{"key":"14953_CR42","doi-asserted-by":"crossref","unstructured":"Vrochidis S, Huet B, Chang E, Kompatsiaris I (2019) Big data analytics for large-scale multimedia search. Wiley","DOI":"10.1002\/9781119376996"},{"key":"14953_CR43","doi-asserted-by":"crossref","unstructured":"Wang H, Chen G, Li Z, Liu Z (2021) Traffic sign detection using feature fusion and contextual information. In: Institute of electrical and electronics engineers Inc., pp 949\u2013953","DOI":"10.1109\/ICARM52023.2021.9536126"},{"key":"14953_CR44","doi-asserted-by":"publisher","first-page":"213","DOI":"10.1016\/j.patcog.2017.01.034","volume":"67","author":"K Wang","year":"2017","unstructured":"Wang K, Bichot CE, Li Y, Li B (2017) Local binary circumferential and radial derivative pattern for texture classification. Pattern Recog 67:213\u2013229. http:\/\/www.sciencedirect.com\/science\/article\/pii\/S00313203173_00407","journal-title":"Pattern Recog"},{"key":"14953_CR45","first-page":"931","volume":"6","author":"Z Wang","year":"2011","unstructured":"Wang Z, Wang E, Wang S, Ding Q (2011) Multimodal biometric system using face-iris fusion feature. JCP 6:931\u2013938","journal-title":"JCP"},{"key":"14953_CR46","doi-asserted-by":"crossref","unstructured":"Yang H, Liu J, Zhang M, Zeng J (2018) Face recognition algorithm based on orthogonal gradient difference local directional pattern. Laser and Optoelectronics Progress 55(4)","DOI":"10.3788\/LOP55.041008"},{"key":"14953_CR47","first-page":"1","volume":"2021","author":"J Yang","year":"2021","unstructured":"Yang J, Lang L, Song S (2021) A study of data-driven enterprise human resource management model. Discret Dyn Nat Soc 2021:1\u201311","journal-title":"Discret Dyn Nat Soc"},{"issue":"1","key":"14953_CR48","doi-asserted-by":"publisher","first-page":"94","DOI":"10.1006\/cviu.1997.0628","volume":"71","author":"M Yeung","year":"1998","unstructured":"Yeung M, Yeo BL, Liu B (1998) Segmentation of video by clustering and graph analysis. Comput Vis Image Underst 71(1):94\u2013109. http:\/\/www.sciencedirect.com\/science\/article\/pii\/S10773142979_06287","journal-title":"Comput Vis Image Underst"},{"key":"14953_CR49","doi-asserted-by":"publisher","unstructured":"Zhang B, Yu F, Gao Y, Ren T, Wu G (2021) Joint learning for relationship and interaction analysis in video with multimodal feature fusion. In: Proceedings of the 29th ACM international conference on multimedia, MM \u201921. Association for Computing Machinery, New York, pp 4848\u20134852, DOI https:\/\/doi.org\/10.1145\/3474085.3479214","DOI":"10.1145\/3474085.3479214"},{"issue":"3","key":"14953_CR50","doi-asserted-by":"publisher","first-page":"1033","DOI":"10.1109\/tip.2015.2511585","volume":"25","author":"X Zhang","year":"2016","unstructured":"Zhang X, Zhang H, Zhang Y, Yang Y, Wang M, Luan H, Li J, Chua TS (2016) Deep fusion of multiple semantic cues for complex event recognition. IEEE Trans Image Process 25(3):1033\u20131046. https:\/\/doi.org\/10.1109\/tip.2015.2511585","journal-title":"IEEE Trans Image Process"},{"key":"14953_CR51","doi-asserted-by":"crossref","unstructured":"Zhao R, Wang Y, Jia P, Li C, Ma Y, Zhang Z (2021) Review of human gesture recognition based on computer vision technology. In: 2021 IEEE 5Th advanced information technology, electronic and automation control conference (IAEAC), vol 5, pp 1599\u20131603","DOI":"10.1109\/IAEAC50856.2021.9390889"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-14953-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-023-14953-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-14953-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,7,26]],"date-time":"2023-07-26T13:56:30Z","timestamp":1690379790000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-023-14953-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,3,20]]},"references-count":51,"journal-issue":{"issue":"20","published-print":{"date-parts":[[2023,8]]}},"alternative-id":["14953"],"URL":"https:\/\/doi.org\/10.1007\/s11042-023-14953-6","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,3,20]]},"assertion":[{"value":"17 February 2022","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"3 August 2022","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 February 2023","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"20 March 2023","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no potential conflict of interest or competing interest. This statement is to certify that all authors have seen and approved the manuscript being submitted.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"<!--Emphasis Type='Bold' removed-->Conflict of Interests"}}]}}