{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T04:26:26Z","timestamp":1775276786661,"version":"3.50.1"},"reference-count":41,"publisher":"Springer Science and Business Media LLC","issue":"12","license":[{"start":{"date-parts":[[2023,7,15]],"date-time":"2023-07-15T00:00:00Z","timestamp":1689379200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,7,15]],"date-time":"2023-07-15T00:00:00Z","timestamp":1689379200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"Research and Application of Object detection based on Artificial Intelligence","award":["No.2022KZ00125"],"award-info":[{"award-number":["No.2022KZ00125"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"DOI":"10.1007\/s11042-023-16121-2","type":"journal-article","created":{"date-parts":[[2023,7,15]],"date-time":"2023-07-15T07:01:48Z","timestamp":1689404508000},"page":"36823-36840","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":14,"title":["Multi-label movie genre classification based on multimodal fusion"],"prefix":"10.1007","volume":"83","author":[{"given":"Zihui","family":"Cai","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hongwei","family":"Ding","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jinlu","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ying","family":"Xi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xuemeng","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaohui","family":"Cui","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2023,7,15]]},"reference":[{"key":"16121_CR1","unstructured":"Allwein E L, Schapire R E, Singer Y (2000) Reducing multiclass to binary: A unifying approach for margin classifiers. J Mach learn Res 1(Dec): 113\u2013141"},{"key":"16121_CR2","unstructured":"Arevalo J, Solorio T, Montes-y-G\u00f3mez M, et al (2017) Gated multimodal units for information fusion. arXiv preprint arXiv:1702.01992"},{"key":"16121_CR3","first-page":"12449","volume":"33","author":"A Baevski","year":"2020","unstructured":"Baevski A, Zhou Y, Mohamed A et al (2020) wav2vec 2.0: A framework for self-supervised learning of speech representations. Adv Neural Inf 33:12449\u201312460","journal-title":"Adv Neural Inf"},{"issue":"29\u201330","key":"16121_CR4","doi-asserted-by":"publisher","first-page":"20483","DOI":"10.1007\/s11042-019-07988-1","volume":"79","author":"I Bakkouri","year":"2020","unstructured":"Bakkouri I, Afdel K (2020) Computer-aided diagnosis (CAD) system based on multi-layer feature fusion network for skin lesion recognition in dermoscopy images. Multimedia Tools and Applications 79(29\u201330):20483\u201320518","journal-title":"Multimedia Tools and Applications"},{"issue":"8","key":"16121_CR5","doi-asserted-by":"publisher","first-page":"10743","DOI":"10.1007\/s11042-022-12242-2","volume":"81","author":"I Bakkouri","year":"2022","unstructured":"Bakkouri I, Afdel K, Benois-Pineau J et al (2022) BG-3DM2F: Bidirectional gated 3D multi-scale feature fusion for Alzheimer\u2019s disease diagnosis. Multimedia Tools and Applications 81(8):10743\u201310776","journal-title":"Multimedia Tools and Applications"},{"key":"16121_CR6","doi-asserted-by":"crossref","unstructured":"Bi T, Jarnikov D, Lukkien J (2021) Video Representation Fusion Network For Multi-Label Movie Genre Classification. 2020 25th Int Conf Pattern Recognit (ICPR). IEEE, 9386\u20139391","DOI":"10.1109\/ICPR48806.2021.9412480"},{"key":"16121_CR7","first-page":"200","volume":"2021","author":"L Braz","year":"2021","unstructured":"Braz L, Teixeira V, Pedrini H et al (2021) Image-Text Integration Using a Multimodal Fusion Network Module for Movie Genre Classification. 11th International Conference of Pattern Recognition Systems (ICPRS 2021). IET 2021:200\u2013205","journal-title":"IET"},{"key":"16121_CR8","doi-asserted-by":"crossref","unstructured":"Cao Y, Steffey S, He J, et a. (2014) Medical image retrieval: a multimodal approach. Cancer Informatics, 13: CIN. S14053","DOI":"10.4137\/CIN.S14053"},{"key":"16121_CR9","doi-asserted-by":"crossref","unstructured":"Carreira J, Zisserman A (2017) Quo vadis, action recognition? a new model and the kinetics dataset. proceedings of the IEEE Conf Comput Vis Pattern Recognit 6299\u20136308","DOI":"10.1109\/CVPR.2017.502"},{"key":"16121_CR10","unstructured":"Devlin J, Chang M W, Lee K, et al (2018) Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805,"},{"key":"16121_CR11","doi-asserted-by":"publisher","first-page":"240","DOI":"10.1016\/j.future.2022.01.026","volume":"131","author":"H Ding","year":"2022","unstructured":"Ding H, Chen L, Dong L et al (2022) Imbalanced data classification: A KNN and generative adversarial networks-based hybrid approach for intrusion detection. Futur Gener Comput Syst 131:240\u2013254","journal-title":"Futur Gener Comput Syst"},{"key":"16121_CR12","doi-asserted-by":"crossref","unstructured":"Fukui A, Park D H, Yang D, et al (2016) Multimodal compact bilinear pooling for visual question answering and visual grounding. arXiv preprint arXiv:1606.01847","DOI":"10.18653\/v1\/D16-1044"},{"key":"16121_CR13","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, et al (2016) Deep residual learning for image recognition. Proc IEEE conf comput vis pattern recognit. 770\u2013778","DOI":"10.1109\/CVPR.2016.90"},{"key":"16121_CR14","doi-asserted-by":"crossref","unstructured":"Hershey S, Chaudhuri S, Ellis D P W, et al (2017) CNN architectures for large-scale audio classification.2017 IEEE Int Conf Acoustics, Speech Signal Process (icassp). IEEE, 131\u2013135","DOI":"10.1109\/ICASSP.2017.7952132"},{"key":"16121_CR15","unstructured":"Huang Z, Xu W, Yu K (2015) Bidirectional LSTM-CRF models for sequence tagging. arXiv preprint arXiv:1508.01991,"},{"key":"16121_CR16","unstructured":"Ioffe S, Szegedy C (2015) Batch normalization: Accelerating deep network training by reducing internal covariate shift. Int Conf Mach learn. PMLR, 448\u2013456"},{"key":"16121_CR17","doi-asserted-by":"crossref","unstructured":"Jain A, Singh A, Koppula H S, et al (2016) Recurrent neural networks for driver activity anticipation via sensory-fusion architecture. 2016 IEEE Int Conf Robotics Automation (ICRA). IEEE, 3118\u20133125","DOI":"10.1109\/ICRA.2016.7487478"},{"key":"16121_CR18","unstructured":"Joze H R V, Shaban A, Iuzzolino M L, et al (2020) MMTM: Multimodal transfer module for CNN fusion. Proceedings of the IEEE\/CVF Conf Comput Vis Pattern Recognit 13289\u201313299"},{"issue":"2","key":"16121_CR19","doi-asserted-by":"publisher","first-page":"99","DOI":"10.1007\/s12193-015-0195-2","volume":"10","author":"SE Kahou","year":"2016","unstructured":"Kahou SE, Bouthillier X, Lamblin P et al (2016) Emonets: Multimodal deep learning approaches for emotion recognition in video. J. Multimodal User Interfaces 10(2):99\u2013111","journal-title":"J. Multimodal User Interfaces"},{"key":"16121_CR20","unstructured":"Krizhevsky A, Sutskever I, Hinton G E (2012) Imagenet classification with deep convolutional neural networks. Adv. Neural Inf 25"},{"issue":"4","key":"16121_CR21","doi-asserted-by":"publisher","first-page":"928","DOI":"10.1109\/TCBB.2014.2377729","volume":"12","author":"M Liang","year":"2014","unstructured":"Liang M, Li Z, Chen T et al (2014) Integrative data analysis of multi-platform cancer data with a multimodal deep learning approach. IEEE\/ACM Trans Comput Biol Bioinf 12(4):928\u2013937","journal-title":"IEEE\/ACM Trans Comput Biol Bioinf"},{"key":"16121_CR22","doi-asserted-by":"crossref","unstructured":"Liu X Y, Wu J, Zhou Z H (2008) Exploratory undersampling for class-imbalance learning. IEEE Trans Syst Man Cybern Syst, Part B (Cybernetics), 39(2): 539\u2013550","DOI":"10.1109\/TSMCB.2008.2007853"},{"key":"16121_CR23","unstructured":"Napoles C, Gormley M R, Van Durme B (2012) Annotated gigaword. Proceedings of the Joint Workshop on Automatic Knowledge Base Construction and Web-scale Knowledge Extraction (AKBC-WEKEX). 95\u2013100"},{"key":"16121_CR24","doi-asserted-by":"crossref","unstructured":"Pang L, Lan Y, Guo J, et al (2016) Text matching as image recognition. Proc AAAI Conf Artificial Intell 30(1)","DOI":"10.1609\/aaai.v30i1.10341"},{"key":"16121_CR25","unstructured":"Paszke A, Gross S, Massa F, et al (2019) Pytorch: An imperative style, high-performance deep learning library. Adv Neural Inf, 32"},{"key":"16121_CR26","doi-asserted-by":"crossref","unstructured":"Pennington J, Socher R, Manning CD (2014) Glove: Global vectors for word representation. Proceedings of the 2014 Conf Empirical Methods in Natural language processing (EMNLP). 1532\u20131543","DOI":"10.3115\/v1\/D14-1162"},{"key":"16121_CR27","doi-asserted-by":"crossref","unstructured":"Poria S, Cambria E, Gelbukh A (2015) Deep convolutional neural network textual features and multiple kernel learning for utterance-level multimodal sentiment analysis. Proceedings of the 2015 conference on empirical methods in natural language processing. 2539\u20132544.","DOI":"10.18653\/v1\/D15-1303"},{"issue":"6","key":"16121_CR28","doi-asserted-by":"publisher","first-page":"96","DOI":"10.1109\/MSP.2017.2738401","volume":"34","author":"D Ramachandram","year":"2017","unstructured":"Ramachandram D, Taylor GW (2017) Deep multimodal learning: A survey on recent advances and trends. IEEE Signal Process Mag 34(6):96\u2013108","journal-title":"IEEE Signal Process Mag"},{"key":"16121_CR29","unstructured":"Simonyan K, Zisserman A (2014) Two-stream convolutional networks for action recognition in videos. Adv. Neural Inf, 27"},{"key":"16121_CR30","unstructured":"Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556"},{"key":"16121_CR31","doi-asserted-by":"crossref","unstructured":"Sim\u00f5es G S, Wehrmann J, Barros R C, et al (2016) Movie genre classification with convolutional neural networks. 2016 Int Joint Conference on Neural Networks (IJCNN). IEEE, 259\u2013266","DOI":"10.1109\/IJCNN.2016.7727207"},{"issue":"1","key":"16121_CR32","first-page":"1929","volume":"15","author":"N Srivastava","year":"2014","unstructured":"Srivastava N, Hinton G, Krizhevsky A et al (2014) Dropout: a simple way to prevent neural networks from overfitting. J Mach Learn Res 15(1):1929\u20131958","journal-title":"J Mach Learn Res"},{"key":"16121_CR33","doi-asserted-by":"crossref","unstructured":"Vielzeuf V, Lechervy A, Pateux S, et al (2018) Centralnet: a multilayer approach for multimodal fusion. Proc European Conf Comput Vis (ECCV) Workshops. 0\u20130","DOI":"10.1007\/978-3-030-11024-6_44"},{"key":"16121_CR34","doi-asserted-by":"crossref","unstructured":"Wehrmann J, Barros RC (2017) Convolutions through time for multi-label movie genre classification. Proc Symp Appl Comput 114\u2013119","DOI":"10.1145\/3019612.3019641"},{"key":"16121_CR35","doi-asserted-by":"publisher","first-page":"973","DOI":"10.1016\/j.asoc.2017.08.029","volume":"61","author":"J Wehrmann","year":"2017","unstructured":"Wehrmann J, Barros RC (2017) Movie genre classification: A multi-label approach based on convolutions through time. Appl Soft Comput 61:973\u2013982","journal-title":"Appl Soft Comput"},{"key":"16121_CR36","doi-asserted-by":"crossref","unstructured":"Wehrmann J, Barros R C, Sim\u00f5es G S, et al (2016) (Deep) learning from frames. 2016 5th Brazilian Conf Intell Syst (BRACIS). IEEE, 1\u20136","DOI":"10.1109\/BRACIS.2016.012"},{"key":"16121_CR37","doi-asserted-by":"crossref","unstructured":"Woo S, Park J, Lee J Y, et al (2018) Cbam: Convolutional block attention module. Proc European Conf Comput Vis (ECCV). 8: 3\u201319","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"16121_CR38","doi-asserted-by":"crossref","unstructured":"Wu A, Han Y (2018) Multi-modal Circulant Fusion for Video-to-Language and Backward. IJCAI 3(4):8","DOI":"10.24963\/ijcai.2018\/143"},{"key":"16121_CR39","doi-asserted-by":"publisher","DOI":"10.1016\/j.asoc.2020.106624","volume":"96","author":"A Yadav","year":"2020","unstructured":"Yadav A, Vishwakarma DK (2020) A unified framework of deep networks for genre classification using movie trailer. Appl Soft Comput 96:106624","journal-title":"Appl Soft Comput"},{"key":"16121_CR40","doi-asserted-by":"crossref","unstructured":"Yu Z, Yu J, Fan J, et al (2017) Multi-modal factorized bilinear pooling with co-attention learning for visual question answering. Proceedings of the IEEE Int Conf Comput Vis 1821\u20131830","DOI":"10.1109\/ICCV.2017.202"},{"key":"16121_CR41","doi-asserted-by":"crossref","unstructured":"Zhou H, Hermans T, Karandikar AV et al (2010) Movie genre classification via scene categorization. Proceedings of the 18th ACM Int Conf Multimedia. 747\u2013750","DOI":"10.1145\/1873951.1874068"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-16121-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-023-16121-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-16121-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,4,2]],"date-time":"2024-04-02T13:14:32Z","timestamp":1712063672000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-023-16121-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,7,15]]},"references-count":41,"journal-issue":{"issue":"12","published-online":{"date-parts":[[2024,4]]}},"alternative-id":["16121"],"URL":"https:\/\/doi.org\/10.1007\/s11042-023-16121-2","relation":{},"ISSN":["1573-7721"],"issn-type":[{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,7,15]]},"assertion":[{"value":"12 April 2022","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 May 2023","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 June 2023","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"15 July 2023","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}