{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,16]],"date-time":"2026-04-16T16:46:53Z","timestamp":1776358013030,"version":"3.51.2"},"reference-count":54,"publisher":"Springer Science and Business Media LLC","issue":"8","license":[{"start":{"date-parts":[[2022,8,2]],"date-time":"2022-08-02T00:00:00Z","timestamp":1659398400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2022,8,2]],"date-time":"2022-08-02T00:00:00Z","timestamp":1659398400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Appl Intell"],"published-print":{"date-parts":[[2023,4]]},"DOI":"10.1007\/s10489-022-03938-x","type":"journal-article","created":{"date-parts":[[2022,8,2]],"date-time":"2022-08-02T05:02:45Z","timestamp":1659416565000},"page":"8776-8798","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":8,"title":["A deep learning-based classification for topic detection of audiovisual documents"],"prefix":"10.1007","volume":"53","author":[{"given":"Manel","family":"Fourati","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Anis","family":"Jedidi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Faiez","family":"Gargouri","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2022,8,2]]},"reference":[{"key":"3938_CR1","doi-asserted-by":"crossref","unstructured":"Antol S, Agrawal A, Lu J, Mitchell M, Batra D, Lawrence Zitnick C, Parikh D (2015) Vqa: Visual question answering. In: Proceedings of the IEEE international conference on computer vision, pp 2425\u20132433","DOI":"10.1109\/ICCV.2015.279"},{"issue":"2","key":"3938_CR2","doi-asserted-by":"publisher","first-page":"649","DOI":"10.1007\/s10489-014-0557-6","volume":"41","author":"J Atkinson","year":"2014","unstructured":"Atkinson J, Gonzalez A, Munoz M, Astudillo H (2014) Web metadata extraction and semantic indexing for learning objects extraction. Appl Intell 41(2):649\u2013664","journal-title":"Appl Intell"},{"issue":"1","key":"3938_CR3","doi-asserted-by":"publisher","first-page":"279","DOI":"10.1007\/s11042-010-0643-7","volume":"51","author":"L Ballan","year":"2011","unstructured":"Ballan L, Bertini M, Del Bimbo A, Seidenari L, Serra G (2011) Event detection and recognition for semantic annotation of video. Multimed Tools Appl 51(1):279\u2013302","journal-title":"Multimed Tools Appl"},{"key":"3938_CR4","first-page":"238","volume-title":"Videopedia: Lecture video recommendation for educational blogs using topic modeling","author":"S Basu","year":"2016","unstructured":"Basu S, Yu Y, Singh VK, Zimmermann R (2016) Videopedia: Lecture video recommendation for educational blogs using topic modeling. Springer, Cham, pp 238\u2013250"},{"key":"3938_CR5","doi-asserted-by":"crossref","unstructured":"Bellegarda JR (1997) A latent semantic analysis framework for large-span language modeling. In: EUROSPEECH","DOI":"10.21437\/Eurospeech.1997-421"},{"key":"3938_CR6","doi-asserted-by":"crossref","unstructured":"Ben-Ahmed O, Huet B (2018) Deep multimodal features for movie genre and interestingness prediction. In: 2018 International conference on content-based multimedia indexing (CBMI). IEEE, pp 1\u20136","DOI":"10.1109\/CBMI.2018.8516504"},{"key":"3938_CR7","doi-asserted-by":"crossref","unstructured":"Bougiatiotis K, Giannakopoulos T (2016) Content representation and similarity of movies based on topic extraction from subtitles. In: Proceedings of the 9th Hellenic conference on artificial intelligence. ACM, pp 1\u20137","DOI":"10.1145\/2903220.2903235"},{"key":"3938_CR8","unstructured":"Chang X, Yang Y, Hauptmann A, Xing EP, Yu YL (2015) Semantic concept discovery for large-scale zero-shot event detection. In: Twenty-fourth international joint conference on artificial intelligence"},{"key":"3938_CR9","unstructured":"Chen D, Dolan WB (2011) Collecting highly parallel data for paraphrase evaluation. In: Proceedings of the 49th annual meeting of the association for computational linguistics: human language technologies, pp 190\u2013200"},{"issue":"103","key":"3938_CR10","first-page":"855","volume":"151","author":"X Chen","year":"2020","unstructured":"Chen X, Zou D, Cheng G, Xie H (2020) Detecting latent topics and trends in educational technologies over four decades using structural topic modeling: a retrospective of all volumes of computers & education. Comput Educ 151(103):855","journal-title":"Comput Educ"},{"key":"3938_CR11","doi-asserted-by":"crossref","unstructured":"Dascalu M, Dessus P, Trausan-matu S, Bianco M, Nardy A (2013) Readerbench, an environment for analyzing text complexity and reading strategies. In: Artif Intell Educ. Springer, pp 379\u2013388","DOI":"10.1007\/978-3-642-39112-5_39"},{"key":"3938_CR12","doi-asserted-by":"crossref","unstructured":"Denkowski M, Lavie A (2014) Meteor universal: Language specific translation evaluation for any target language. In: Proceedings of the ninth workshop on statistical machine translation, pp 376\u2013380","DOI":"10.3115\/v1\/W14-3348"},{"key":"3938_CR13","doi-asserted-by":"publisher","first-page":"404","DOI":"10.1016\/j.patcog.2019.01.038","volume":"90","author":"Z Fang","year":"2019","unstructured":"Fang Z, Liu J, Li Y, Qiao Y, Lu H (2019) Improving visual question answering using dropout and enhanced question encoder. Pattern Recogn 90:404\u2013414","journal-title":"Pattern Recogn"},{"key":"3938_CR14","doi-asserted-by":"crossref","unstructured":"Fourati M, Jedidi A, Gargouri F (2017) Generic descriptions for movie document: an experimental study. In: 2017 IEEE\/ACS 14Th international conference on computer systems and applications (AICCSA). IEEE, pp 766\u2013773","DOI":"10.1109\/AICCSA.2017.164"},{"issue":"45","key":"3938_CR15","doi-asserted-by":"publisher","first-page":"33,519","DOI":"10.1007\/s11042-020-09589-9","volume":"79","author":"M Fourati","year":"2020","unstructured":"Fourati M, Jedidi A, Gargouri F (2020) A survey on description and modeling of audiovisual documents. Multimed Tools Appl 79(45):33,519\u201333, 546","journal-title":"Multimed Tools Appl"},{"issue":"2","key":"3938_CR16","doi-asserted-by":"publisher","first-page":"52","DOI":"10.4018\/IJMDEM.2015040104","volume":"6","author":"M Fourati","year":"2015","unstructured":"Fourati M, Jedidi A, Hassin HB, Gargouri F (2015) Towards fusion of textual and visual modalities for describing audiovisual documents. Inter J Multimed Data Eng Manag (IJMDEM) 6(2):52\u201370","journal-title":"Inter J Multimed Data Eng Manag (IJMDEM)"},{"key":"3938_CR17","doi-asserted-by":"crossref","unstructured":"Gan Z, Gan C, He X, Pu Y, Tran K, Gao J, Carin L, Deng L (2017) Semantic compositional networks for visual captioning. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 5630\u20135639","DOI":"10.1109\/CVPR.2017.127"},{"issue":"3","key":"3938_CR18","doi-asserted-by":"publisher","first-page":"507","DOI":"10.1007\/s11760-018-1376-8","volume":"13","author":"H Gharbi","year":"2019","unstructured":"Gharbi H, Bahroun S, Zagrouba E (2019) Key frame extraction for video summarization using local description and repeatability graph clustering. SIViP 13(3):507\u2013515","journal-title":"SIViP"},{"key":"3938_CR19","doi-asserted-by":"crossref","unstructured":"Hamroun M, Tamine K, Crespin B (2021) Multimodal video indexing (mvi): A new method based on machine learning and semi-automatic annotation on large video collections. International Journal of Image and Graphics p 2250022","DOI":"10.1142\/S021946782250022X"},{"key":"3938_CR20","doi-asserted-by":"crossref","unstructured":"Hao X, Zhou F, Li X (2020) Scene-edge gru for video caption. In: 2020 IEEE 4Th information technology, networking, electronic and automation control conference (ITNEC). IEEE, vol 1, pp 1290\u20131295","DOI":"10.1109\/ITNEC48623.2020.9084781"},{"key":"3938_CR21","doi-asserted-by":"publisher","first-page":"38","DOI":"10.1016\/j.jbi.2013.11.006","volume":"48","author":"S Harispe","year":"2014","unstructured":"Harispe S, Senchez D, Ranwez S, Janaqi S, Montmain J (2014) A framework for unifying ontology-based semantic similarity measures: a study in the biomedical domain. J Biomed Inf 48:38\u201353","journal-title":"J Biomed Inf"},{"key":"3938_CR22","doi-asserted-by":"crossref","unstructured":"He Y, Li Y, Lei J, Leung C (2016) A framework of query expansion for image retrieval based on knowledge base and concept similarity. Neurocomputing - Inpress","DOI":"10.1016\/j.neucom.2015.11.102"},{"issue":"8","key":"3938_CR23","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780","journal-title":"Neural Comput"},{"key":"3938_CR24","doi-asserted-by":"crossref","unstructured":"Huang Q, Xiong Y, Rao A, Wang J, Lin D (2020) Movienet: a holistic dataset for movie understanding. In: Computer vision\u2013ECCV 2020: 16th european conference, glasgow, UK, August 23\u201328, 2020, Proceedings, Part IV 16. Springer, pp 709\u2013727","DOI":"10.1007\/978-3-030-58548-8_41"},{"issue":"11","key":"3938_CR25","doi-asserted-by":"publisher","first-page":"15,169","DOI":"10.1007\/s11042-018-6894-4","volume":"78","author":"H Jelodar","year":"2019","unstructured":"Jelodar H, Wang Y, Yuan C, Feng X, Jiang X, Li Y, Zhao L (2019) Latent dirichlet allocation (lda) and topic modeling: models, applications, a survey. Multimed Tools Appl 78(11):15,169\u201315,211","journal-title":"Multimed Tools Appl"},{"issue":"3","key":"3938_CR26","doi-asserted-by":"publisher","first-page":"726","DOI":"10.1109\/TMM.2017.2751140","volume":"20","author":"L Li","year":"2017","unstructured":"Li L, Tang S, Zhang Y, Deng L, Tian Q (2017) Gla: Global\u2013local attention for image description. IEEE Trans Multimedia 20(3):726\u2013737","journal-title":"IEEE Trans Multimedia"},{"key":"3938_CR27","doi-asserted-by":"crossref","unstructured":"Li X, Zhang J, Ouyang J (2019) Dirichlet multinomial mixture with variational manifold regularization: Topic modeling over short texts. In: Proceedings of the AAAI Conference on artificial intelligence, vol 33, pp 7884\u20137891","DOI":"10.1609\/aaai.v33i01.33017884"},{"key":"3938_CR28","unstructured":"Lin CY (2004) Rouge: a package for automatic evaluation of summaries. In: Text summarization branches out, pp 74\u201381"},{"issue":"7","key":"3938_CR29","doi-asserted-by":"publisher","first-page":"1482","DOI":"10.1109\/TMM.2017.2671447","volume":"19","author":"B Luo","year":"2017","unstructured":"Luo B, Li H, Meng F, Wu Q, Huang C (2017) Video object segmentation via global consistency aware query strategy. IEEE Trans Multimed 19(7):1482\u20131493","journal-title":"IEEE Trans Multimed"},{"key":"3938_CR30","doi-asserted-by":"crossref","unstructured":"Matthews P (2019) Human-in-the-loop topic modelling: Assessing topic labelling and genre-topic relations with a movie plot summary corpus. In: The human position in an artificial world: creativity, ethics and AI in knowledge organization. Ergon-verlag, pp 181\u2013207","DOI":"10.5771\/9783956505508-181"},{"key":"3938_CR31","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1002\/asi.24375","volume":"72","author":"P Matthews","year":"2021","unstructured":"Matthews P, Glitre K (2021) Genre analysis of movies using a topic model of plot summaries. J Assoc Inf Sci 72:1\u201317","journal-title":"J Assoc Inf Sci"},{"key":"3938_CR32","doi-asserted-by":"crossref","unstructured":"Mocanu B, Tapu R, Tapu E (2016) Video retrieval using relevant topics extraction from movie subtitles. In: 12Th IEEE international symposium on electronics and telecommunications (ISETC), 2016. IEEE, pp 327\u2013330","DOI":"10.1109\/ISETC.2016.7781123"},{"key":"3938_CR33","doi-asserted-by":"crossref","unstructured":"Papineni K, Roukos S, Ward T, Zhu WJ (2002) Bleu:, a method for automatic evaluation of machine translation. p 311\u2013318","DOI":"10.3115\/1073083.1073135"},{"issue":"1","key":"3938_CR34","first-page":"1","volume":"91","author":"ME Roberts","year":"2019","unstructured":"Roberts ME, Stewart BM, Tingley D (2019) Stm: an r package for structural topic models. J Stat Softw 91(1):1\u201340","journal-title":"J Stat Softw"},{"key":"3938_CR35","doi-asserted-by":"crossref","unstructured":"Rohrbach A, Rohrbach M, Tandon N, Schiele B (2015) A dataset for movie description. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3202\u20133212","DOI":"10.1109\/CVPR.2015.7298940"},{"key":"3938_CR36","doi-asserted-by":"crossref","unstructured":"Rotman D, Porat D, Ashour G (2016) Robust and efficient video scene detection using optimal sequential grouping. In: 2016 IEEE International symposium on multimedia (ISM). IEEE, pp 275\u2013280","DOI":"10.1109\/ISM.2016.0061"},{"key":"3938_CR37","doi-asserted-by":"crossref","unstructured":"Rotman D, Porat D, Ashour G (2017) Robust video scene detection using multimodal fusion of optimally grouped features. In: 2017 IEEE 19Th international workshop on multimedia signal processing (MMSP). IEEE, pp 1\u20136","DOI":"10.1109\/MMSP.2017.8122267"},{"key":"3938_CR38","doi-asserted-by":"crossref","unstructured":"Sadique MF, Rahman MA, Haque SR (2020) Content based unsupervised video summarization using birds foraging search. In: 2020 11Th international conference on computing, communication and networking technologies (ICCCNT). IEEE, pp 1\u20137","DOI":"10.1109\/ICCCNT49239.2020.9225424"},{"key":"3938_CR39","doi-asserted-by":"publisher","first-page":"337","DOI":"10.1007\/s00530-019-00610-2","volume":"25","author":"E Sanchez-Nielsen","year":"2019","unstructured":"Sanchez-Nielsen E, Chavez-Gutierrez F, Lorenzo-Navarro J (2019) A semantic parliamentary multimedia approach for retrieval of video clips with content understanding. Multimedia Systems 25:337\u2013354","journal-title":"Multimedia Systems"},{"key":"3938_CR40","doi-asserted-by":"crossref","unstructured":"Shah R, Zimmermann R (2017) Multimodal analysis of user-generated multimedia content. Springer","DOI":"10.1007\/978-3-319-61807-4"},{"issue":"10","key":"3938_CR41","doi-asserted-by":"publisher","first-page":"3047","DOI":"10.1109\/TNNLS.2018.2851077","volume":"30","author":"J Song","year":"2018","unstructured":"Song J, Guo Y, Gao L, Li X, Hanjalic A, Shen HT (2018) From deterministic to generative: Multimodal stochastic rnns for video captioning. IEEE Trans Neural Netw Learn Syst 30(10):3047\u20133058","journal-title":"IEEE Trans Neural Netw Learn Syst"},{"issue":"2","key":"3938_CR42","doi-asserted-by":"publisher","first-page":"88","DOI":"10.1109\/MIS.2021.3062200","volume":"36","author":"L Stappen","year":"2021","unstructured":"Stappen L, Baird A, Cambria E, Schuller BW (2021) Sentiment analysis and topic recognition in video transcriptions. IEEE Intell Syst 36(2):88\u201395","journal-title":"IEEE Intell Syst"},{"issue":"5","key":"3938_CR43","doi-asserted-by":"publisher","first-page":"1272","DOI":"10.1109\/TPAMI.2019.2910529","volume":"42","author":"P Tang","year":"2019","unstructured":"Tang P, Wang C, Wang X, Liu W, Zeng W, Wang J (2019) Object detection in videos by high quality object linking. IEEE Trans Pattern Anal Mach Intell 42(5):1272\u20131278","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"3938_CR44","unstructured":"Torabi A, Pal C, Larochelle H, Courville A (2015) Using descriptive video services to create a large data source for video annotation research. CoRR:1503.01070, p 1\u20137"},{"issue":"12","key":"3938_CR45","doi-asserted-by":"publisher","first-page":"17, 487","DOI":"10.1007\/s11042-020-10450-2","volume":"80","author":"TH Trojahn","year":"2021","unstructured":"Trojahn TH, Goularte R (2021) Temporal video scene segmentation using deep-learning. Multimed Tools Appl 80(12):17, 487\u201317, 513","journal-title":"Multimed Tools Appl"},{"key":"3938_CR46","doi-asserted-by":"crossref","unstructured":"Tsai WL (2021) A cooperative mechanism for managing multimedia project documentation. Multimedia Tools and Applications, p 1\u201314","DOI":"10.1007\/s11042-021-10521-y"},{"key":"3938_CR47","doi-asserted-by":"crossref","unstructured":"Vedantam R, Lawrence Zitnick C, Parikh D (2015) Cider: Consensus-based image description evaluation. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4566\u20134575","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"3938_CR48","doi-asserted-by":"publisher","first-page":"327","DOI":"10.1016\/j.patrec.2018.07.024","volume":"130","author":"H Wang","year":"2020","unstructured":"Wang H, Gao C, Han Y (2020) Sequence in sequence for video captioning. Pattern Recogn Lett 130:327\u2013334","journal-title":"Pattern Recogn Lett"},{"key":"3938_CR49","doi-asserted-by":"crossref","unstructured":"Xu J, Mei T, Yao T, Rui Y (2016) Msr-vtt: a large video description dataset for bridging video and language. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 5288\u20135296","DOI":"10.1109\/CVPR.2016.571"},{"issue":"2","key":"3938_CR50","doi-asserted-by":"publisher","first-page":"142","DOI":"10.1109\/TLT.2014.2307305","volume":"7","author":"H Yang","year":"2014","unstructured":"Yang H, Meinel C (2014) Content based lecture video retrieval using speech and video text information. IEEE Trans Learn Technol 7(2):142\u2013154","journal-title":"IEEE Trans Learn Technol"},{"issue":"11","key":"3938_CR51","doi-asserted-by":"publisher","first-page":"5600","DOI":"10.1109\/TIP.2018.2855422","volume":"27","author":"Y Yang","year":"2018","unstructured":"Yang Y, Zhou J, Ai J, Bin Y, Hanjalic A, Shen HT, Ji Y (2018) Video captioning by adversarial lstm. IEEE Trans Image Process 27(11):5600\u20135611","journal-title":"IEEE Trans Image Process"},{"key":"3938_CR52","doi-asserted-by":"crossref","unstructured":"Ye G, Li Y, Xu H, Liu D, Chang SF (2015) Eventnet: a large scale structured concept library for complex event detection in video. In: Proceedings of the 23rd ACM international conference on Multimedia. ACM, pp 471\u2013480","DOI":"10.1145\/2733373.2806221"},{"issue":"11","key":"3938_CR53","doi-asserted-by":"publisher","first-page":"5552","DOI":"10.1109\/TIP.2019.2916757","volume":"28","author":"B Zhao","year":"2019","unstructured":"Zhao B, Li X, Lu X (2019) Cam-rnn: Co-attention model based rnn for video captioning. IEEE Trans Image Process 28(11):5552\u20135565","journal-title":"IEEE Trans Image Process"},{"key":"3938_CR54","unstructured":"Zhou W, Li H, Tian Q (2017) Recent advance in content-based image retrieval: A literature survey. arXiv:1706.06064"}],"container-title":["Applied Intelligence"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10489-022-03938-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10489-022-03938-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10489-022-03938-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,4,30]],"date-time":"2023-04-30T09:14:25Z","timestamp":1682846065000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10489-022-03938-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,8,2]]},"references-count":54,"journal-issue":{"issue":"8","published-print":{"date-parts":[[2023,4]]}},"alternative-id":["3938"],"URL":"https:\/\/doi.org\/10.1007\/s10489-022-03938-x","relation":{},"ISSN":["0924-669X","1573-7497"],"issn-type":[{"value":"0924-669X","type":"print"},{"value":"1573-7497","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,8,2]]},"assertion":[{"value":"24 June 2022","order":1,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 August 2022","order":2,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}