{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,25]],"date-time":"2026-02-25T19:16:17Z","timestamp":1772046977647,"version":"3.50.1"},"reference-count":91,"publisher":"Springer Science and Business Media LLC","issue":"8","license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Appl Intell"],"published-print":{"date-parts":[[2022,6]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>For short text classification, insufficient labeled data, data sparsity, and imbalanced classification have become three major challenges. For this, we proposed multiple weak supervision, which can label unlabeled data automatically. Different from prior work, the proposed method can generate probabilistic labels through conditional independent model. What\u2019s more, experiments were conducted to verify the effectiveness of multiple weak supervision. According to experimental results on public dadasets, real datasets and synthetic datasets, unlabeled imbalanced short text classification problem can be solved effectively by multiple weak supervision. Notably, without reducing<jats:italic>precision<\/jats:italic>,<jats:italic>recall<\/jats:italic>, and<jats:italic>F1-score<\/jats:italic>can be improved by adding distant supervision clustering, which can be used to meet different application needs.<\/jats:p>","DOI":"10.1007\/s10489-021-02958-3","type":"journal-article","created":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T07:16:29Z","timestamp":1641021389000},"page":"9101-9116","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":17,"title":["Multiple weak supervision for short text classification"],"prefix":"10.1007","volume":"52","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-7504-5738","authenticated-orcid":false,"given":"Li-Ming","family":"Chen","sequence":"first","affiliation":[]},{"given":"Bao-Xin","family":"Xiu","sequence":"additional","affiliation":[]},{"given":"Zhao-Yun","family":"Ding","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2022,1,1]]},"reference":[{"issue":"3","key":"2958_CR1","doi-asserted-by":"publisher","first-page":"269","DOI":"10.14778\/3157794.3157797","volume":"11","author":"A Ratner","year":"2017","unstructured":"Ratner A, et al. (2017) Snorkel: Rapid Training Data Creation with Weak Supervision. Proc VLDB Endowment 11(3):269\u2013282","journal-title":"Proc VLDB Endowment"},{"key":"2958_CR2","doi-asserted-by":"crossref","unstructured":"Sun C, et al. (2017) Revisiting Unreasonable Effectiveness of Data in Deep Learning Era. In: 2017 IEEE International Conference on Computer Vision (ICCV)","DOI":"10.1109\/ICCV.2017.97"},{"key":"2958_CR3","first-page":"362","volume":"2019","author":"SH Bach","year":"2019","unstructured":"Bach SH, et al. (2019) Snorkel DryBell: A Case Study in Deploying Weak Supervision at Industrial Scale. Proc ACM SIGMOD Int Conf Manag Data 2019:362\u2013375","journal-title":"Proc ACM SIGMOD Int Conf Manag Data"},{"issue":"1","key":"2958_CR4","doi-asserted-by":"publisher","first-page":"44","DOI":"10.1093\/nsr\/nwx106","volume":"5","author":"Z Zhou","year":"2018","unstructured":"Zhou Z (2018) A brief introduction to weakly supervised learning. Ntl Sci Rev 5(1):44\u201353","journal-title":"Ntl Sci Rev"},{"key":"2958_CR5","first-page":"3567","volume":"29","author":"A Ratner","year":"2016","unstructured":"Ratner A, et al. (2016) Data Programming: Creating Large Training Sets, Quickly. Adv Neural Inf Process Syst 29:3567\u20133575","journal-title":"Adv Neural Inf Process Syst"},{"issue":"1","key":"2958_CR6","first-page":"130","volume":"3","author":"X Zhu","year":"2009","unstructured":"Zhu X, Goldberg AB (2009) Introduction to Semi-Supervised Learning. Synthesis Lect Artif Intell Mach Learn 3(1):130","journal-title":"Synthesis Lect Artif Intell Mach Learn"},{"key":"2958_CR7","unstructured":"Alfonseca E, et al. (2012) Pattern learning for relation extraction with a hierarchical topic model. In: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers - Volume 2. Association for Computational Linguistics, Jeju Island, pp 54\u201359"},{"key":"2958_CR8","doi-asserted-by":"crossref","unstructured":"Augenstein I, Maynard D, Ciravegna F (2014) Relation Extraction from the Web Using Distant Supervision. In: International Conference on Knowledge Engineering and Knowledge Management","DOI":"10.1007\/978-3-319-13704-9_3"},{"key":"2958_CR9","doi-asserted-by":"crossref","unstructured":"Mintz M, et al. (2009) Distant supervision for relation extraction without labeled data. In: Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2 - Volume 2. Association for Computational Linguistics, Suntec, pp 1003\u20131011","DOI":"10.3115\/1690219.1690287"},{"key":"2958_CR10","doi-asserted-by":"crossref","unstructured":"Quinn AJ, Bederson BB (2011) Human computation: a survey and taxonomy of a growing field. In: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. ACM, Vancouver, pp 1403\u20131412","DOI":"10.1145\/1978942.1979148"},{"key":"2958_CR11","doi-asserted-by":"crossref","unstructured":"Yuen M, King I, Leung K (2011) A Survey of Crowdsourcing Systems. In: 2011 IEEE Third International Conference on Privacy: Security Risk and Trust and 2011. IEEE Third International Conference on Social Computing","DOI":"10.1109\/PASSAT\/SocialCom.2011.203"},{"issue":"11","key":"2958_CR12","doi-asserted-by":"publisher","first-page":"1190","DOI":"10.14778\/3137628.3137631","volume":"10","author":"T Rekatsinas","year":"2017","unstructured":"Rekatsinas T, et al. (2017) HoloClean: holistic data repairs with probabilistic inference. Proc VLDB Endow 10(11):1190\u20131201","journal-title":"Proc VLDB Endow"},{"issue":"1","key":"2958_CR13","doi-asserted-by":"publisher","first-page":"60","DOI":"10.1145\/2949741.2949756","volume":"45","author":"CD Sa","year":"2016","unstructured":"Sa CD, et al. (2016) DeepDive: Declarative Knowledge Base Construction. SIGMOD Rec 45 (1):60\u201367","journal-title":"SIGMOD Rec"},{"key":"2958_CR14","doi-asserted-by":"crossref","unstructured":"Liang P, Jordan MI, Klein D (2009) Learning from measurements in exponential families. In: Proceedings of the 26th Annual International Conference on Machine Learning. ACM, Montreal, pp 641\u2013648","DOI":"10.1145\/1553374.1553457"},{"key":"2958_CR15","first-page":"955","volume":"11","author":"GS Mann","year":"2010","unstructured":"Mann GS, McCallum A (2010) Generalized Expectation Criteria for Semi-Supervised Learning with Weakly Labeled Data. J Mach Learn Res 11:955\u2013984","journal-title":"J Mach Learn Res"},{"key":"2958_CR16","doi-asserted-by":"crossref","unstructured":"Stewart R, Ermon S (2016) Label-Free Supervision of Neural Networks with Physics and Domain Knowledge. Thirty-First Aaai Conference on Artificial Intelligence, pp 7","DOI":"10.1609\/aaai.v31i1.10934"},{"key":"2958_CR17","doi-asserted-by":"crossref","unstructured":"Zaidan OF, Eisner J (2008) Modeling annotators: a generative approach to learning from annotator rationales. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Honolulu, pp 31\u201340","DOI":"10.3115\/1613715.1613721"},{"key":"2958_CR18","doi-asserted-by":"crossref","unstructured":"Yao W, Liu J, Cai Z (2018) Personal Attributes Extraction in Chinese Text Based on Distant-Supervision and LSTM. In: Advances in Computer Science and Ubiquitous Computing. Springer Singapore, Singapore","DOI":"10.1007\/978-981-10-7605-3_84"},{"key":"2958_CR19","doi-asserted-by":"crossref","unstructured":"Shi Y, Xiao Y, Niu L (2019) A Brief Survey of Relation Extraction Based on Distant Supervision in Computational Science \u2013 ICCS 2019. Springer International Publishing, Cham","DOI":"10.1007\/978-3-030-22744-9_23"},{"key":"2958_CR20","doi-asserted-by":"crossref","unstructured":"Batista-Navarro R, Hawkins O (2019) Topic Modelling vs Distant Supervision: A Comparative Evaluation Based on the Classification of Parliamentary Enquiries. In: Digital Libraries for Open Knowledge. Springer International Publishing, Cham","DOI":"10.1007\/978-3-030-30760-8_46"},{"key":"2958_CR21","doi-asserted-by":"crossref","unstructured":"Krause S, et al. (2012) Large-Scale Learning of Relation-Extraction Rules with Distant Supervision from the Web in The Semantic Web \u2013 ISWC 2012. Springer, Berlin","DOI":"10.1007\/978-3-642-35176-1_17"},{"key":"2958_CR22","doi-asserted-by":"crossref","unstructured":"Heist N, Paulheim H (2017) Language-Agnostic Relation Extraction from Wikipedia Abstracts in The Semantic Web \u2013 ISWC 2017. Springer International Publishing, Cham","DOI":"10.1007\/978-3-319-68288-4_23"},{"key":"2958_CR23","doi-asserted-by":"crossref","unstructured":"Auer S, et al. (2007) DBpedia: A Nucleus for a Web of Open Data. In: The Semantic Web. Springer, Berlin","DOI":"10.1007\/978-3-540-76298-0_52"},{"issue":"4","key":"2958_CR24","doi-asserted-by":"publisher","first-page":"86","DOI":"10.1145\/1924421.1924442","volume":"54","author":"A Doan","year":"2011","unstructured":"Doan A, Ramakrishnan R, Halevy AY (2011) Crowdsourcing systems on the World-Wide Web. Commun ACM 54(4):86\u201396","journal-title":"Commun ACM"},{"key":"2958_CR25","doi-asserted-by":"crossref","unstructured":"Haralabopoulos G, et al. (2019) Paid Crowdsourcing, Low Income Contributors, and Subjectivity. In: Artificial Intelligence Applications and Innovations. Springer International Publishing, Cham","DOI":"10.1007\/978-3-030-19909-8_20"},{"key":"2958_CR26","doi-asserted-by":"crossref","unstructured":"Nowak S, et al. (2010) How reliable are annotations via crowdsourcing: a study about inter-annotator agreement for multi-label image annotation. In: Proceedings of the international conference on Multimedia information retrieval. ACM, Philadelphia, pp 557\u2013566","DOI":"10.1145\/1743384.1743478"},{"key":"2958_CR27","doi-asserted-by":"crossref","unstructured":"Redi JA, et al. (2013) Crowdsourcing-based multimedia subjective evaluations: a case study on image recognizability and aesthetic appeal. In: Proceedings of the 2nd ACM international workshop on Crowdsourcing for multimedia. ACM, Barcelona, pp 29\u201334","DOI":"10.1145\/2506364.2506368"},{"issue":"1","key":"2958_CR28","doi-asserted-by":"publisher","first-page":"184","DOI":"10.1007\/s11263-012-0564-1","volume":"101","author":"C Vondrick","year":"2013","unstructured":"Vondrick C, Patterson D, Ramanan D (2013) Efficiently Scaling up Crowdsourced Video Annotation. Int J Comput Vis 101(1):184\u2013204","journal-title":"Int J Comput Vis"},{"issue":"2","key":"2958_CR29","doi-asserted-by":"publisher","first-page":"9","DOI":"10.1145\/1480506.1480508","volume":"42","author":"O Alonso","year":"2008","unstructured":"Alonso O, Rose DE, Stewart B (2008) Crowdsourcing for relevance evaluation. SIGIR Forum 42(2):9\u201315","journal-title":"SIGIR Forum"},{"key":"2958_CR30","unstructured":"Akkaya C, et al. (2010) Amazon Mechanical Turk for subjectivity word sense disambiguation. In: Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon\u2019s Mechanical Turk. Association for Computational Linguistics, Los Angeles, pp 195\u2013203"},{"key":"2958_CR31","unstructured":"Callison-Burch C, Dredze M (2010) Creating speech and language data with Amazon\u2019s Mechanical Turk. In: Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon\u2019s Mechanical Turk. Association for Computational Linguistics, Los Angeles, pp 1\u201312"},{"key":"2958_CR32","unstructured":"Gao Q, Vogel S (2010) Consensus versus expertise: a case study of word alignment with Mechanical Turk. In: Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon\u2019s Mechanical Turk. Association for Computational Linguistics, Los Angeles, pp 30\u201334"},{"issue":"1","key":"2958_CR33","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s10115-018-1235-5","volume":"60","author":"L Nassar","year":"2019","unstructured":"Nassar L, Karray F (2019) Overview of the crowdsourcing process. Knowl Inf Syst 60(1):1\u201324","journal-title":"Knowl Inf Syst"},{"key":"2958_CR34","first-page":"273","volume":"70","author":"SH Bach","year":"2017","unstructured":"Bach SH, et al. (2017) Learning the Structure of Generative Models without Labeled Data. Proc Mach Learn Res 70:273\u201382","journal-title":"Proc Mach Learn Res"},{"key":"2958_CR35","doi-asserted-by":"crossref","unstructured":"Wang H, et al. (2019) An Empirical Study of Heuristic Rules on the Performance of Satellite TT&C Scheduling Algorithms. In: 2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC)","DOI":"10.1109\/ITAIC.2019.8785872"},{"key":"2958_CR36","doi-asserted-by":"crossref","unstructured":"Peters M, et al. (2018) Deep Contextualized Word Representations. In: Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). New Orleans, Louisiana: Association for Computational Linguistics","DOI":"10.18653\/v1\/N18-1202"},{"key":"2958_CR37","unstructured":"Radford A, et al. (2018) Improving language understanding by generative pre-training"},{"key":"2958_CR38","unstructured":"Devlin J, et al. (2019) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding in NAACL-HLT"},{"key":"2958_CR39","unstructured":"Yang ZL, et al. (2019) XLNet: Generalized Autoregressive Pretraining for Language Understanding. In: Wallach H et al. (eds) Advances in Neural Information Processing Systems"},{"key":"2958_CR40","doi-asserted-by":"crossref","unstructured":"Diao S, et al. (2019) ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations. arXiv e-prints","DOI":"10.18653\/v1\/2020.findings-emnlp.425"},{"key":"2958_CR41","unstructured":"Sun Y, et al. (2019) ERNIE: Enhanced Representation through Knowledge Integration. arXiv:1904.09223"},{"key":"2958_CR42","unstructured":"Liu Y et al (2019) RoBERTa: A Robustly Optimized BERT Pretraining Approach"},{"key":"2958_CR43","doi-asserted-by":"crossref","unstructured":"Sun Y, Sun Y, et al. (2020) ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding. In: Proceedings of the AAAI Conference on Artificial Intelligence","DOI":"10.1609\/aaai.v34i05.6428"},{"key":"2958_CR44","doi-asserted-by":"publisher","first-page":"170","DOI":"10.1016\/j.dss.2014.07.003","volume":"66","author":"NFF da Silva","year":"2014","unstructured":"da Silva NFF, Hruschka ER, Hruschka ER (2014) Tweet sentiment analysis with classifier ensembles. Decis Support Syst 66:170\u2013179","journal-title":"Decis Support Syst"},{"key":"2958_CR45","unstructured":"Heap B, et al. (2017) Word Vector Enrichment of Low Frequency Words in the Bag-of-Words Model for Short Text Multi-class Classification Problems"},{"issue":"2","key":"2958_CR46","doi-asserted-by":"publisher","first-page":"155","DOI":"10.1108\/IJWIS-12-2017-0083","volume":"15","author":"I Alsmadi","year":"2019","unstructured":"Alsmadi I, Gan KH (2019) Review of short-text classification. Int J Web Inf Syst 15(2):155\u2013182","journal-title":"Int J Web Inf Syst"},{"key":"2958_CR47","doi-asserted-by":"crossref","unstructured":"Diao S, et al. (2019) ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations. arXiv e-prints","DOI":"10.18653\/v1\/2020.findings-emnlp.425"},{"key":"2958_CR48","unstructured":"Allahyari M, et al. (2017) A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques"},{"issue":"1","key":"2958_CR49","first-page":"217","volume":"62","author":"Z Zhuo","year":"2020","unstructured":"Zhuo Z, et al. (2020) News Text Topic Clustering Optimized Method Based on TF-IDF Algorithm on Spark. Comput Mater Cont 62(1):217\u2013231","journal-title":"Comput Mater Cont"},{"key":"2958_CR50","doi-asserted-by":"crossref","unstructured":"Kadhim AI (2019) Term Weighting for Feature Extraction on Twitter: A Comparison Between BM25 and TF-IDF. In: 2019 International Conference on Advanced Science and Engineering (ICOASE)","DOI":"10.1109\/ICOASE.2019.8723825"},{"issue":"3","key":"2958_CR51","doi-asserted-by":"publisher","first-page":"3797","DOI":"10.1007\/s11042-018-6083-5","volume":"78","author":"X Deng","year":"2019","unstructured":"Deng X, et al. (2019) Feature selection for text classification: A review. Multimed Tools Appl 78(3):3797\u20133816","journal-title":"Multimed Tools Appl"},{"issue":"5","key":"2958_CR52","first-page":"635","volume":"9","author":"S Ge","year":"2014","unstructured":"Ge S, et al. (2014) Short Text Classification: A Survey. J Multimed 9(5):635\u2013643","journal-title":"J Multimed"},{"key":"2958_CR53","doi-asserted-by":"crossref","unstructured":"Ostrowski DA (2014) Feature Selection for Twitter Classification in 2014. IEEE International Conference on Semantic Computing","DOI":"10.1109\/ICSC.2014.50"},{"issue":"3","key":"2958_CR54","doi-asserted-by":"publisher","first-page":"487","DOI":"10.1007\/s10115-010-0288-x","volume":"26","author":"A El Akadi","year":"2011","unstructured":"El Akadi A, et al. (2011) A two-stage gene selection scheme utilizing MRMR filter and GA wrapper. Knowl Inf Syst 26(3):487\u2013500","journal-title":"Knowl Inf Syst"},{"issue":"7","key":"2958_CR55","doi-asserted-by":"publisher","first-page":"2793","DOI":"10.1016\/j.camwa.2011.07.045","volume":"62","author":"J Meng","year":"2011","unstructured":"Meng J, Lin H, Yu Y (2011) A two-stage feature selection method for text categorization. Comput Math Appl 62(7):2793\u20132800","journal-title":"Comput Math Appl"},{"issue":"1","key":"2958_CR56","doi-asserted-by":"publisher","first-page":"31","DOI":"10.1109\/TNB.2009.2035284","volume":"9","author":"PA Mundra","year":"2010","unstructured":"Mundra PA, Rajapakse JC (2010) SVM-RFE With MRMR Filter for Gene Selection. IEEE Trans NanoBiosci 9(1):31\u201337","journal-title":"IEEE Trans NanoBiosci"},{"issue":"1","key":"2958_CR57","doi-asserted-by":"publisher","first-page":"159","DOI":"10.1016\/j.csda.2004.03.005","volume":"48","author":"M Tenenhaus","year":"2005","unstructured":"Tenenhaus M, et al. (2005) PLS path modeling. Comput Stat Data Anal 48(1):159\u2013205","journal-title":"Comput Stat Data Anal"},{"key":"2958_CR58","doi-asserted-by":"crossref","unstructured":"Deerwester S, et al. (1990) Indexing by latent semantic analysis 41(6):391\u2013407","DOI":"10.1002\/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9"},{"key":"2958_CR59","doi-asserted-by":"crossref","unstructured":"Zareapoor M, Seeja K. J. I. J. o. I. E., Business E (2015) Feature extraction or feature selection for text classification: A case study on phishing email detection 7(2):60","DOI":"10.5815\/ijieeb.2015.02.08"},{"issue":"6","key":"2958_CR60","doi-asserted-by":"publisher","first-page":"3105","DOI":"10.1016\/j.eswa.2014.11.038","volume":"42","author":"KK Bharti","year":"2015","unstructured":"Bharti KK, Singh PK (2015) Hybrid dimension reduction by integrating feature selection with feature extraction method for text clustering. Expert Syst Appl 42(6):3105\u20133114","journal-title":"Expert Syst Appl"},{"issue":"3, Part 1","key":"2958_CR61","doi-asserted-by":"publisher","first-page":"5432","DOI":"10.1016\/j.eswa.2008.06.054","volume":"36","author":"J Chen","year":"2009","unstructured":"Chen J, et al. (2009) Feature selection for text classification with Na\u00efve Bayes. Expert Syst Appl 36(3, Part 1):5432\u20135435","journal-title":"Expert Syst Appl"},{"key":"2958_CR62","doi-asserted-by":"crossref","unstructured":"Wang M, Lin L, Wang F (2013) Improving Short Text Classification through Better Feature Space Selection in 2013. Ninth International Conference on Computational Intelligence and Security","DOI":"10.1109\/CIS.2013.32"},{"key":"2958_CR63","doi-asserted-by":"crossref","unstructured":"Weissbock J, Esmin AA, Inkpen D (2013) Using external information for classifying tweets. In: 2013 Brazilian Conference on Intelligent Systems. IEEE","DOI":"10.1109\/BRACIS.2013.9"},{"key":"2958_CR64","doi-asserted-by":"crossref","unstructured":"Goyal S, Parveen S (2015) Improved feature selection for better classification in twitter. Int J Comput Appl 122(1)","DOI":"10.5120\/21664-4737"},{"key":"2958_CR65","doi-asserted-by":"crossref","unstructured":"Rosa H, Batista F, Carvalho JP (2014) Twitter Topic Fuzzy Fingerprints in 2014. IEEE International Conference on Fuzzy Systems (FUZZ-IEEE)","DOI":"10.1109\/FUZZ-IEEE.2014.6891781"},{"key":"2958_CR66","doi-asserted-by":"crossref","unstructured":"Yin C, et al. (2015) A New SVM Method for Short Text Classification Based on Semi-Supervised Learning. In: 2015 4th International Conference on Advanced Information Technology and Sensor Application (AITS)","DOI":"10.1109\/AITS.2015.34"},{"key":"2958_CR67","doi-asserted-by":"crossref","unstructured":"Kotsianti SB, Kanellopoulos D (2007) Combining Bagging, Boosting and Dagging for Classification Problems. Springer, Berlin","DOI":"10.1007\/978-3-540-74827-4_62"},{"key":"2958_CR68","doi-asserted-by":"crossref","unstructured":"Rogati M, Yang Y (2002) High-performing feature selection for text classification, Inproceedings of the eleventh international conference on Information and knowledge management. Association for Computing Machinery, McLean, pp 659\u2013661","DOI":"10.1145\/584792.584911"},{"issue":"7\/8","key":"2958_CR69","first-page":"1289","volume":"3","author":"G Forman","year":"2003","unstructured":"Forman G (2003) An Extensive Empirical Study of Feature Selection Metrics for Text Classification. J Mach Learn Res 3(7\/8):1289\u20131305","journal-title":"J Mach Learn Res"},{"key":"2958_CR70","unstructured":"Chawla N, Japkowicz N, Kolcz A (2003) Workshop learning from imbalanced data sets II. In: Proceedings of Int\u2019l Conf Machine Learning"},{"issue":"1","key":"2958_CR71","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/1007730.1007733","volume":"6","author":"N Chawla","year":"2004","unstructured":"Chawla N, Japkowicz N, Kotcz A (2004) Editorial: special issue on learning from imbalanced data sets. SIGKDD Explor Newsl 6(1):1\u20136","journal-title":"SIGKDD Explor Newsl"},{"key":"2958_CR72","unstructured":"Wang S, et al. (2017) Proceedings of the IJCAI 2017 Workshop on Learning in the Presence of imbalanced classification and Concept Drift (LPCICD\u201917) arXiv e-prints"},{"key":"2958_CR73","doi-asserted-by":"publisher","first-page":"321","DOI":"10.1613\/jair.953","volume":"16","author":"N Chawla","year":"2002","unstructured":"Chawla N, et al. (2002) SMOTE: Synthetic Minority Over-sampling Technique. J Artif Intell Res (JAIR) 16:321\u2013357","journal-title":"J Artif Intell Res (JAIR)"},{"key":"2958_CR74","doi-asserted-by":"crossref","unstructured":"Han H, Wang W-Y, Mao B-H (2005) Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning. Springer, Berlin","DOI":"10.1007\/11538059_91"},{"key":"2958_CR75","doi-asserted-by":"crossref","unstructured":"Haibo H, et al. (2008) ADASYN: Adaptive synthetic sampling approach for imbalanced learning. In: 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence)","DOI":"10.1109\/IJCNN.2008.4633969"},{"key":"2958_CR76","unstructured":"Feng Y, Zhou M (2020) X Tong Imbalanced classification: an objective-oriented review. arXiv e-prints"},{"issue":"2","key":"2958_CR77","doi-asserted-by":"publisher","first-page":"539","DOI":"10.1109\/TSMCB.2008.2007853","volume":"39","author":"X Liu","year":"2009","unstructured":"Liu X, Wu J, Zhou Z (2009) Exploratory Undersampling for Class-Imbalance Learning. IEEE Trans Syst Man Cybern Part B (Cybern) 39(2):539\u2013550","journal-title":"IEEE Trans Syst Man Cybern Part B (Cybern)"},{"key":"2958_CR78","doi-asserted-by":"crossref","unstructured":"Luqyana WA, Ahmadie BL, Supianto AA (2019) K-Nearest Neighbors Undersampling as Balancing Data for Cyber Troll Detection. In: 2019 International Conference on Sustainable Information Engineering and Technology (SIET)","DOI":"10.1109\/SIET48054.2019.8986079"},{"key":"2958_CR79","doi-asserted-by":"publisher","first-page":"113","DOI":"10.1016\/j.ins.2013.07.007","volume":"250","author":"V L\u00f3pez","year":"2013","unstructured":"L\u00f3pez V., et al. (2013) An insight into classification with imbalanced data: Empirical results and current trends on using data intrinsic characteristics. Inf Sci 250:113\u2013141","journal-title":"Inf Sci"},{"key":"2958_CR80","doi-asserted-by":"crossref","unstructured":"Liang G (2013) An Effective Method for Imbalanced Time Series Classification: Hybrid Sampling","DOI":"10.1007\/978-3-319-03680-9_38"},{"key":"2958_CR81","doi-asserted-by":"crossref","unstructured":"Gan D, et al. (2020) Integrating TANBN with cost sensitive classification algorithm for imbalanced data in medical diagnosis. Comput Ind Eng 140:106266","DOI":"10.1016\/j.cie.2019.106266"},{"key":"2958_CR82","doi-asserted-by":"publisher","first-page":"529","DOI":"10.1016\/j.neucom.2014.07.064","volume":"150","author":"J B\u0142aszczy\u0144ski","year":"2015","unstructured":"B\u0142aszczy\u0144ski J, Stefanowski J (2015) Neighbourhood sampling in bagging for imbalanced data. Neurocomputing 150:529\u2013542","journal-title":"Neurocomputing"},{"key":"2958_CR83","doi-asserted-by":"crossref","unstructured":"Yuan Z, Zhao P (2019) An Improved Ensemble Learning for Imbalanced Data Classification. In: 2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC)","DOI":"10.1109\/ITAIC.2019.8785887"},{"key":"2958_CR84","doi-asserted-by":"publisher","first-page":"736","DOI":"10.1016\/j.procs.2019.09.229","volume":"159","author":"C Padurariu","year":"2019","unstructured":"Padurariu C, Breaban ME (2019) Dealing with Data Imbalance in Text Classification. Procedia Comput Sci 159:736\u2013745","journal-title":"Procedia Comput Sci"},{"issue":"1","key":"2958_CR85","doi-asserted-by":"publisher","first-page":"14","DOI":"10.1287\/orsc.5.1.14","volume":"5","author":"I Nonaka","year":"1994","unstructured":"Nonaka I (1994) A Dynamic Theory of Organizational Knowledge Creation. Organ Sci 5(1):14\u201337","journal-title":"Organ Sci"},{"key":"2958_CR86","first-page":"993","volume":"3","author":"DM Blei","year":"2003","unstructured":"Blei DM, et al. (2003) Latent Dirichlet Allocation. J Mach Learn Res 3:993\u20131022","journal-title":"J Mach Learn Res"},{"key":"2958_CR87","doi-asserted-by":"publisher","first-page":"113","DOI":"10.1016\/j.neucom.2019.11.083","volume":"383","author":"Y Zhang","year":"2020","unstructured":"Zhang Y, et al. (2020) Keywords extraction with deep neural network model. Neurocomputing 383:113\u2013121","journal-title":"Neurocomputing"},{"key":"2958_CR88","doi-asserted-by":"publisher","first-page":"213","DOI":"10.1007\/s00500-008-0319-7","volume":"13","author":"A Orriols-Puig","year":"2009","unstructured":"Orriols-Puig A, Bernad\u00f3-Mansilla E (2009) Evolutionary rule-based systems for imbalanced data sets. Soft Comput 13:213\u2013225","journal-title":"Soft Comput"},{"key":"2958_CR89","unstructured":"Corso GMD, Gull\u00ed A, Romani F (2005) Ranking a stream of news, Inproceedings of the 14th international conference on World Wide Web. Association for Computing Machinery, Chiba, pp 97\u2013106"},{"key":"2958_CR90","doi-asserted-by":"publisher","first-page":"241","DOI":"10.1016\/S0893-6080(05)80023-1","volume":"5","author":"D Wolpert","year":"1992","unstructured":"Wolpert D (1992) Stacked Generalization. Neural Netw 5:241\u2013259","journal-title":"Neural Netw"},{"key":"2958_CR91","doi-asserted-by":"publisher","first-page":"67","DOI":"10.1109\/4235.585893","volume":"1","author":"D Wolpert","year":"1997","unstructured":"Wolpert D, Macready W (1997) The No Free Lunch Theorems for Optimization. IEEE Trans Evol Comput 1:67\u201382","journal-title":"IEEE Trans Evol Comput"}],"container-title":["Applied Intelligence"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10489-021-02958-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10489-021-02958-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10489-021-02958-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,1,21]],"date-time":"2023-01-21T12:00:26Z","timestamp":1674302426000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10489-021-02958-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,1,1]]},"references-count":91,"journal-issue":{"issue":"8","published-print":{"date-parts":[[2022,6]]}},"alternative-id":["2958"],"URL":"https:\/\/doi.org\/10.1007\/s10489-021-02958-3","relation":{},"ISSN":["0924-669X","1573-7497"],"issn-type":[{"value":"0924-669X","type":"print"},{"value":"1573-7497","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,1,1]]},"assertion":[{"value":"26 October 2021","order":1,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 January 2022","order":2,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}