{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,14]],"date-time":"2026-02-14T06:05:10Z","timestamp":1771049110823,"version":"3.50.1"},"reference-count":50,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2026,1,29]],"date-time":"2026-01-29T00:00:00Z","timestamp":1769644800000},"content-version":"vor","delay-in-days":28,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/100009043","name":"University of Patras","doi-asserted-by":"crossref","id":[{"id":"10.13039\/100009043","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Comput &amp; Applic"],"published-print":{"date-parts":[[2026,1]]},"abstract":"<jats:title>Abstract<\/jats:title>\n                  <jats:p>It is a fact that natural language processing (NLP) has become an integral part of daily life, with research outcomes being integrated into various everyday implementations. A significant portion of this success can reasonably be attributed to the architecture of transformers. In this context, text classification problems constitute a large part of ongoing research. Simultaneously, there is a growing demand for high-quality labeled textual data. The latter is becoming increasingly urgent with the rising complexity and size of models. Based on this, the present work investigates the integration of active learning strategies into text classification problems using transformer-based models from the BERT family. Through an extensive experimental framework involving 10 datasets and 7 different BERT-based classifiers, we demonstrate that the incorporation of active learning in the context of text classification can significantly reduce the need for labeled data during the fine-tuning procedures. Specifically, our experimental results illustrate that without sacrificing model effectiveness\u2013as measured by various evaluation metrics\u2013we can achieve at least a 50% reduction in the dataset size in 70% of cases. Additionally, we show that the size of the dataset plays a crucial role in maintaining high performance levels.<\/jats:p>","DOI":"10.1007\/s00521-025-11756-8","type":"journal-article","created":{"date-parts":[[2026,1,29]],"date-time":"2026-01-29T08:48:55Z","timestamp":1769676535000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Reducing labeled data requirements in text classification with active learning and BERT-based transformers"],"prefix":"10.1007","volume":"38","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-4226-6597","authenticated-orcid":false,"given":"Aikaterini","family":"Karanikola","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Charalampos M.","family":"Liapis","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sotiris","family":"Kotsiantis","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,1,29]]},"reference":[{"key":"11756_CR1","unstructured":"Settles B (2009) Active learning literature survey. Technical report 1648, University of Wisconsin-Madison, Computer Sciences Department. http:\/\/burrsettles.com\/pub\/settles.activelearning.pdf"},{"issue":"3","key":"11756_CR2","first-page":"6","volume":"3","author":"T Liu","year":"2024","unstructured":"Liu T, Li S, Dong Y, Mo Y, He S (2024) Spam detection and classification based on distilbert deep learning algorithm. Appl Sci Eng J Adv Res 3(3):6\u201310","journal-title":"Appl Sci Eng J Adv Res"},{"issue":"1","key":"11756_CR3","doi-asserted-by":"publisher","first-page":"17","DOI":"10.26555\/jiteki.v9i4.28113","volume":"10","author":"A Nilla","year":"2024","unstructured":"Nilla A, Setiawan EB (2024) Film recommendation system using content-based filtering and the convolutional neural network (CNN) classification methods. J Ilmiah Tekn Elektro Komput Informat (JITEKI) 10(1):17\u201329","journal-title":"J Ilmiah Tekn Elektro Komput Informat (JITEKI)"},{"key":"11756_CR4","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser L, Polosukhin I (2017) Attention is all you need. CoRR arXiv:1706.03762"},{"issue":"2","key":"11756_CR5","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3605943","volume":"56","author":"B Min","year":"2023","unstructured":"Min B, Ross H, Sulem E, Veyseh APB, Nguyen TH, Sainz O, Agirre E, Heintz I, Roth D (2023) Recent advances in natural language processing via large pre-trained language models: a survey. ACM Comput Surv 56(2):1\u201340","journal-title":"ACM Comput Surv"},{"key":"11756_CR6","unstructured":"Tong S (2001) Active learning: theory and applications. Stanford University"},{"issue":"4","key":"11756_CR7","doi-asserted-by":"publisher","first-page":"820","DOI":"10.3390\/math11040820","volume":"11","author":"A Tharwat","year":"2023","unstructured":"Tharwat A, Schenck W (2023) A survey on active learning: state-of-the-art, practical challenges and research directions. Mathematics 11(4):820","journal-title":"Mathematics"},{"key":"11756_CR8","doi-asserted-by":"publisher","DOI":"10.1016\/j.ins.2024.120786","volume":"676","author":"CM Liapis","year":"2024","unstructured":"Liapis CM, Karanikola A, Kotsiantis S (2024) Data-efficient software defect prediction: a comparative analysis of active learning-enhanced models and voting ensembles. Inf Sci 676:120786","journal-title":"Inf Sci"},{"key":"11756_CR9","unstructured":"Li Q, Peng H, Li J, Xia C, Yang R, Sun L, Yu PS, He L (2021) A survey on text classification: from shallow to deep learning. arXiv:2008.00364"},{"issue":"3","key":"11756_CR10","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3439726","volume":"54","author":"S Minaee","year":"2021","unstructured":"Minaee S, Kalchbrenner N, Cambria E, Nikzad N, Chenaghlu M, Gao J (2021) Deep learning-based text classification: a comprehensive review. ACM Comput Surv 54(3):1\u201340. https:\/\/doi.org\/10.1145\/3439726","journal-title":"ACM Comput Surv"},{"issue":"1","key":"11756_CR11","doi-asserted-by":"publisher","first-page":"424","DOI":"10.1038\/s41598-023-50598-z","volume":"14","author":"X Li","year":"2024","unstructured":"Li X, Wang X, Chen X, Lu Y, Fu H, Wu YC (2024) Unlabeled data selection for active learning in image classification. Sci Rep 14(1):424","journal-title":"Sci Rep"},{"key":"11756_CR12","doi-asserted-by":"crossref","unstructured":"Li D, Wang Y, Funakoshi K, Okumura M (2023) Active learning based fine-tuning framework for speech emotion recognition. arXiv:2310.00283","DOI":"10.1109\/ASRU57964.2023.10389652"},{"key":"11756_CR13","doi-asserted-by":"crossref","unstructured":"Grie\u00dfhaber D, Maucher J, Vu NT (2020) Fine-tuning Bert for low-resource natural language understanding via active learning. arXiv preprint arXiv:2012.02462","DOI":"10.18653\/v1\/2020.coling-main.100"},{"key":"11756_CR14","doi-asserted-by":"crossref","unstructured":"Dor LE, Halfon A, Gera A, Shnarch E, Dankin L, Choshen L, Danilevsky M, Aharonov R, Katz Y, Slonim N (2020) Active learning for Bert: an empirical study. In: Proceedings of the 2020 conference on empirical methods in natural language processing (EMNLP), pp 7949\u20137962","DOI":"10.18653\/v1\/2020.emnlp-main.638"},{"key":"11756_CR15","unstructured":"Prabhu S, Mohamed M, Misra H (2021) Multi-class text classification using Bert-based active learning. CoRR arXiv:2104.14289"},{"key":"11756_CR16","doi-asserted-by":"crossref","unstructured":"Yuan M, Lin H-T, Boyd-Graber J (2020) Cold-start active learning through self-supervised language modeling. arXiv preprint arXiv:2010.09535","DOI":"10.18653\/v1\/2020.emnlp-main.637"},{"key":"11756_CR17","doi-asserted-by":"crossref","unstructured":"Schr\u00f6der C, Niekler A, Potthast M (2021) Revisiting uncertainty-based query strategies for active learning with transformers. arXiv preprint arXiv:2107.05687","DOI":"10.18653\/v1\/2022.findings-acl.172"},{"issue":"5","key":"11756_CR18","doi-asserted-by":"publisher","first-page":"553","DOI":"10.1007\/s42979-023-02061-z","volume":"4","author":"NR Paul","year":"2023","unstructured":"Paul NR, Balabantaray RC, Sahoo D (2023) Fine-tuning transformer-based representations in active learning for labelling crisis dataset of tweets. SN Comput Sci 4(5):553","journal-title":"SN Comput Sci"},{"key":"11756_CR19","first-page":"28140","volume":"35","author":"A Tamkin","year":"2022","unstructured":"Tamkin A, Nguyen D, Deshpande S, Mu J, Goodman N (2022) Active learning helps pretrained models learn the intended task. Adv Neural Inf Process Syst 35:28140\u201328153","journal-title":"Adv Neural Inf Process Syst"},{"key":"11756_CR20","doi-asserted-by":"crossref","unstructured":"Sahan M, Smidl V, Marik R (2021). Active learning for text classification and fake news detection. IEEE, pp 87\u201394","DOI":"10.1109\/ISCSIC54682.2021.00027"},{"key":"11756_CR21","doi-asserted-by":"publisher","unstructured":"Lewis DD, Catlett J (1994) Heterogeneous uncertainty sampling for supervised learning. In: Cohen WW, Hirsh H (eds) Machine learning proceedings 1994. Morgan Kaufmann, San Francisco, pp 148\u2013156. https:\/\/doi.org\/10.1016\/B978-1-55860-335-6.50026-X. https:\/\/www.sciencedirect.com\/science\/article\/pii\/B978155860335650026X","DOI":"10.1016\/B978-1-55860-335-6.50026-X"},{"key":"11756_CR22","unstructured":"Sheng, E., Uthus, D.: Investigating societal biases in a poetry composition system. In: Costa-Juss\u00e0, M.R., Hardmeier, C., Radford, W., Webster, K. (eds.) Proceedings of the Second Workshop on Gender Bias in Natural Language Processing, pp. 93\u2013106."},{"key":"11756_CR23","doi-asserted-by":"crossref","unstructured":"Mohammad S, Bravo-Marquez F, Salameh M, Kiritchenko S (2018) Semeval-2018 task 1: affect in tweets. In: Proceedings of the 12th international workshop on semantic evaluation, pp 1\u201317","DOI":"10.18653\/v1\/S18-1001"},{"key":"11756_CR24","unstructured":"Pang B, Lee L (2005) Exploiting class relationships for sentiment categorization with respect to rating scales. In: Proceedings of the ACL"},{"key":"11756_CR25","doi-asserted-by":"publisher","unstructured":"Basile V, Bosco C, Fersini E, Nozza D, Patti V, Rangel Pardo FM, Rosso P, Sanguinetti M (2019) SemEval-2019 task 5: multilingual detection of hate speech against immigrants and women in Twitter. In: Proceedings of the 13th international workshop on semantic evaluation, pp 54\u201363. Association for Computational Linguistics, Minneapolis. https:\/\/doi.org\/10.18653\/v1\/S19-2007. https:\/\/www.aclweb.org\/anthology\/S19-2007","DOI":"10.18653\/v1\/S19-2007"},{"key":"11756_CR26","unstructured":"Tweet Sentiment Airlines Dataset. https:\/\/huggingface.co\/datasets\/jos-ger\/tweet-sentiment-airlines. Accessed 28 Jul 2024"},{"key":"11756_CR27","doi-asserted-by":"publisher","unstructured":"Saravia E, Liu H-CT, Huang Y-H, Wu J, Chen Y-S (2018) CARER: contextualized affect representations for emotion recognition. In: Proceedings of the 2018 conference on empirical methods in natural language processing. Association for Computational Linguistics, Brussels, pp 3687\u20133697. https:\/\/doi.org\/10.18653\/v1\/D18-1404. https:\/\/www.aclweb.org\/anthology\/D18-1404","DOI":"10.18653\/v1\/D18-1404"},{"issue":"5","key":"11756_CR28","doi-asserted-by":"publisher","first-page":"885","DOI":"10.1016\/j.jbi.2012.04.008","volume":"45","author":"H Gurulingappa","year":"2012","unstructured":"Gurulingappa H, Rajput AM, Roberts A, Fluck J, Hofmann-Apitius M, Toldo L (2012) Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports. J Biomed Inform 45(5):885\u2013892. https:\/\/doi.org\/10.1016\/j.jbi.2012.04.008. (Text Mining and Natural Language Processing in Pharmacogenomics)","journal-title":"J Biomed Inform"},{"key":"11756_CR29","unstructured":"Maas AL, Daly RE, Pham PT, Huang D, Ng AY, Potts C (2011). Learning word vectors for sentiment analysis. Association for Computational Linguistics, Portland, pp 142\u2013150. http:\/\/www.aclweb.org\/anthology\/P11-1015"},{"key":"11756_CR30","doi-asserted-by":"crossref","unstructured":"Wang A, Singh A, Michael J, Hill F, Levy O, Bowman SR (2019) GLUE: a multi-task benchmark and analysis platform for natural language understanding. In: the Proceedings of ICLR","DOI":"10.18653\/v1\/W18-5446"},{"key":"11756_CR31","doi-asserted-by":"crossref","unstructured":"Rosenthal S, Farra N, Nakov P (2017) Semeval-2017 task 4: sentiment analysis in twitter. In: Proceedings of the 11th international workshop on semantic evaluation (SemEval-2017), pp 502\u2013518","DOI":"10.18653\/v1\/S17-2088"},{"key":"11756_CR32","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2023.122666","volume":"241","author":"S Islam","year":"2024","unstructured":"Islam S, Elmekki H, Elsebai A, Bentahar J, Drawel N, Rjoub G, Pedrycz W (2024) A comprehensive survey on applications of transformers for deep learning tasks. Expert Syst Appl 241:122666","journal-title":"Expert Syst Appl"},{"key":"11756_CR33","unstructured":"Devlin J, Chang M-W, Lee K, Toutanova K (2019) BERT: pre-training of deep bidirectional transformers for language understanding. arXiv:1810.04805"},{"key":"11756_CR34","unstructured":"Sanh V, Debut L, Chaumond J, Wolf T (2020) DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108"},{"key":"11756_CR35","unstructured":"NLP Town: nlptown\/bert-base-multilingual-uncased-sentiment (2024). https:\/\/huggingface.co\/nlptown\/bert-base-multilingual-uncased-sentiment. Accessed 28 Jul 2024"},{"key":"11756_CR36","doi-asserted-by":"publisher","unstructured":"Yuan, Lik Xun: distilbert-base-multilingual-cased-sentiments-student (2023). https:\/\/huggingface.co\/lxyuan\/distilbert-base-multilingual-cased-sentiments-student. https:\/\/doi.org\/10.57967\/hf\/1422. Accessed 28 Jul 2024","DOI":"10.57967\/hf\/1422"},{"key":"11756_CR37","doi-asserted-by":"crossref","unstructured":"P\u00e9rez JM, Rajngewerc M, Giudici JC, Furman DA, Luque F, Alonso Alemany L, Mart\u00ednez MV (2024) pysentimiento: a Python toolkit for opinion mining and social NLP tasks. http:\/\/arxiv.org\/abs\/arXiv:2106.09462","DOI":"10.21203\/rs.3.rs-3570648\/v1"},{"issue":"1","key":"11756_CR38","doi-asserted-by":"publisher","first-page":"308","DOI":"10.30574\/wjaets.2023.8.1.0054","volume":"8","author":"JC Obi","year":"2023","unstructured":"Obi JC (2023) A comparative study of several classification metrics and their performances on data. World J Adv Eng Technol Sci 8(1):308\u2013314","journal-title":"World J Adv Eng Technol Sci"},{"issue":"2","key":"11756_CR39","first-page":"1","volume":"5","author":"M Hossin","year":"2015","unstructured":"Hossin M, Sulaiman MN (2015) A review on evaluation metrics for data classification evaluations. Int J Data Min Knowl Manag Process 5(2):1","journal-title":"Int J Data Min Knowl Manag Process"},{"issue":"2","key":"11756_CR40","doi-asserted-by":"publisher","first-page":"442","DOI":"10.1016\/0005-2795(75)90109-9","volume":"405","author":"BW Matthews","year":"1975","unstructured":"Matthews BW (1975) Comparison of the predicted and observed secondary structure of t4 phage lysozyme. Biochim Biophys Acta (BBA)-Protein Struct 405(2):442\u2013451","journal-title":"Biochim Biophys Acta (BBA)-Protein Struct"},{"key":"11756_CR41","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1186\/s12864-019-6413-7","volume":"21","author":"D Chicco","year":"2020","unstructured":"Chicco D, Jurman G (2020) The advantages of the Matthews correlation coefficient (mcc) over f1 score and accuracy in binary classification evaluation. BMC Genom 21:1\u201313","journal-title":"BMC Genom"},{"issue":"5\u20136","key":"11756_CR42","doi-asserted-by":"publisher","first-page":"367","DOI":"10.1016\/j.compbiolchem.2004.09.006","volume":"28","author":"J Gorodkin","year":"2004","unstructured":"Gorodkin J (2004) Comparing two k-category assignments by a k-category correlation coefficient. Comput Biol Chem 28(5\u20136):367\u2013374","journal-title":"Comput Biol Chem"},{"key":"11756_CR43","doi-asserted-by":"publisher","DOI":"10.1016\/j.ins.2024.120786","volume":"676","author":"CM Liapis","year":"2024","unstructured":"Liapis CM, Karanikola A, Kotsiantis S (2024) Data-efficient software defect prediction: a comparative analysis of active learning-enhanced models and voting ensembles. Inf Sci 676:120786","journal-title":"Inf Sci"},{"issue":"200","key":"11756_CR44","doi-asserted-by":"publisher","first-page":"675","DOI":"10.1080\/01621459.1937.10503522","volume":"32","author":"M Friedman","year":"1937","unstructured":"Friedman M (1937) The use of ranks to avoid the assumption of normality implicit in the analysis of variance. J Am Stat Assoc 32(200):675\u2013701","journal-title":"J Am Stat Assoc"},{"issue":"293","key":"11756_CR45","doi-asserted-by":"publisher","first-page":"52","DOI":"10.1080\/01621459.1961.10482090","volume":"56","author":"OJ Dunn","year":"1961","unstructured":"Dunn OJ (1961) Multiple comparisons among means. J Am Stat Assoc 56(293):52\u201364","journal-title":"J Am Stat Assoc"},{"key":"11756_CR46","doi-asserted-by":"crossref","unstructured":"Chen J, Li S (2023). Class-aware learning for imbalanced multi-label classification. IEEE, pp 903\u2013907","DOI":"10.1109\/ICCASIT58768.2023.10351721"},{"issue":"2","key":"11756_CR47","first-page":"167","volume":"8","author":"V Ganganwar","year":"2024","unstructured":"Ganganwar V, Rajalakshmi R (2024) Employing synthetic data for addressing the class imbalance in aspect-based sentiment classification. J Inf Telecommun 8(2):167\u2013188","journal-title":"J Inf Telecommun"},{"key":"11756_CR48","unstructured":"Huang S-J, Jin R, Zhou Z-H (2010) Active learning by querying informative and representative examples. Adv Neural Inf Process Syst 23"},{"issue":"4","key":"11756_CR49","doi-asserted-by":"publisher","DOI":"10.1007\/s11704-022-1624-5","volume":"17","author":"X Dong","year":"2022","unstructured":"Dong X, Luo T, Fan R, Zhuge W, Hou C (2022) Active label distribution learning via kernel maximum mean discrepancy. Front Comput Sci 17(4):174327. https:\/\/doi.org\/10.1007\/s11704-022-1624-5","journal-title":"Front Comput Sci"},{"key":"11756_CR50","doi-asserted-by":"crossref","unstructured":"Specktor-Fadida B, Levchakov A, Schonberger D, Ben-Sira L, Ben Bashat D, Joskowicz L (2023). Test-time augmentation-based active learning and self-training for label-efficient segmentation. Springer, pp 213\u2013223","DOI":"10.1007\/978-3-031-44917-8_21"}],"container-title":["Neural Computing and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-025-11756-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00521-025-11756-8","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-025-11756-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,14]],"date-time":"2026-02-14T05:19:39Z","timestamp":1771046379000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00521-025-11756-8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1]]},"references-count":50,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2026,1]]}},"alternative-id":["11756"],"URL":"https:\/\/doi.org\/10.1007\/s00521-025-11756-8","relation":{},"ISSN":["0941-0643","1433-3058"],"issn-type":[{"value":"0941-0643","type":"print"},{"value":"1433-3058","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,1]]},"assertion":[{"value":"20 December 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"25 October 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"29 January 2026","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no Conflict of interest","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"26"}}