{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,12]],"date-time":"2026-05-12T16:22:28Z","timestamp":1778602948800,"version":"3.51.4"},"reference-count":35,"publisher":"Oxford University Press (OUP)","issue":"Supplement_2","license":[{"start":{"date-parts":[[2024,9,4]],"date-time":"2024-09-04T00:00:00Z","timestamp":1725408000000},"content-version":"vor","delay-in-days":3,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100009708","name":"Novo Nordisk Foundation","doi-asserted-by":"publisher","award":["NNF14CC0001"],"award-info":[{"award-number":["NNF14CC0001"]}],"id":[{"id":"10.13039\/501100009708","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002341","name":"Academy of Finland","doi-asserted-by":"publisher","award":["332844"],"award-info":[{"award-number":["332844"]}],"id":[{"id":"10.13039\/501100002341","id-type":"DOI","asserted-by":"publisher"}]},{"name":"European Union\u2019s Horizon 2020"},{"name":"Marie Sklodowska-Curie","award":["101023676"],"award-info":[{"award-number":["101023676"]}]},{"DOI":"10.13039\/501100009708","name":"Novo Nordisk Foundation","doi-asserted-by":"publisher","award":["NNF20SA0035590"],"award-info":[{"award-number":["NNF20SA0035590"]}],"id":[{"id":"10.13039\/501100009708","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,9,1]]},"abstract":"<jats:title>Abstract<\/jats:title>\n                  <jats:sec>\n                    <jats:title>Motivation<\/jats:title>\n                    <jats:p>Dictionary-based named entity recognition (NER) allows terms to be detected in a corpus and normalized to biomedical databases and ontologies. However, adaptation to different entity types requires new high-quality dictionaries and associated lists of blocked names for each type. The latter are so far created by identifying cases that cause many false positives through manual inspection of individual names, a process that scales poorly.<\/jats:p>\n                  <\/jats:sec>\n                  <jats:sec>\n                    <jats:title>Results<\/jats:title>\n                    <jats:p>In this work, we aim to improve block list s by automatically identifying names to block, based on the context in which they appear. By comparing results of three well-established biomedical NER methods, we generated a dataset of over 12.5 million text spans where the methods agree on the boundaries and type of entity tagged. These were used to generate positive and negative examples of contexts for four entity types (genes, diseases, species, and chemicals), which were used to train a Transformer-based model (BioBERT) to perform entity type classification. Application of the best model (F1-score\u2009=\u200996.7%) allowed us to generate a list of problematic names that should be blocked. Introducing this into our system doubled the size of the previous list of corpus-wide blocked names. In addition, we generated a document-specific list that allows ambiguous names to be blocked in specific documents. These changes boosted text mining precision by \u223c5.5% on average, and over 8.5% for chemical and 7.5% for gene names, positively affecting several biological databases utilizing this NER system, like the STRING database, with only a minor drop in recall (0.6%).<\/jats:p>\n                  <\/jats:sec>\n                  <jats:sec>\n                    <jats:title>Availability and implementation<\/jats:title>\n                    <jats:p>All resources are available through Zenodo https:\/\/doi.org\/10.5281\/zenodo.11243139 and GitHub https:\/\/doi.org\/10.5281\/zenodo.10289360.<\/jats:p>\n                  <\/jats:sec>","DOI":"10.1093\/bioinformatics\/btae402","type":"journal-article","created":{"date-parts":[[2024,6,16]],"date-time":"2024-06-16T19:18:17Z","timestamp":1718565497000},"page":"ii45-ii52","source":"Crossref","is-referenced-by-count":8,"title":["Improving dictionary-based named entity recognition with deep learning"],"prefix":"10.1093","volume":"40","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-3611-5726","authenticated-orcid":false,"given":"Katerina","family":"Nastou","sequence":"first","affiliation":[{"name":"Novo Nordisk Foundation Center for Protein Research, Faculty of Health and Medical Sciences, University of Copenhagen , Blegdamsvej 3 , Copenhagen, 2200, Denmark"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mikaela","family":"Koutrouli","sequence":"additional","affiliation":[{"name":"Novo Nordisk Foundation Center for Protein Research, Faculty of Health and Medical Sciences, University of Copenhagen , Blegdamsvej 3 , Copenhagen, 2200, Denmark"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sampo","family":"Pyysalo","sequence":"additional","affiliation":[{"name":"TurkuNLP Group, Department of Computing, University of Turku , Turku, 20014, Finland"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lars Juhl","family":"Jensen","sequence":"additional","affiliation":[{"name":"Novo Nordisk Foundation Center for Protein Research, Faculty of Health and Medical Sciences, University of Copenhagen , Blegdamsvej 3 , Copenhagen, 2200, Denmark"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"286","published-online":{"date-parts":[[2024,9,4]]},"reference":[{"key":"2024090414003638200_btae402-B1","doi-asserted-by":"crossref","first-page":"bau012","DOI":"10.1093\/database\/bau012","article-title":"COMPARTMENTS: unification and visualization of protein subcellular localization evidence","volume":"2014","author":"Binder","year":"2014","journal-title":"Database"},{"key":"2024090414003638200_btae402-B2","doi-asserted-by":"crossref","first-page":"i382","DOI":"10.1093\/bioinformatics\/btq180","article-title":"Complex event extraction at Pubmed scale","volume":"26","author":"Bj\u00f6rne","year":"2010","journal-title":"Bioinformatics"},{"key":"2024090414003638200_btae402-B3","doi-asserted-by":"crossref","first-page":"3533","DOI":"10.1093\/bioinformatics\/btz070","article-title":"PMC text mining subset in bioc: about three million full-text articles and growing","volume":"35","author":"Comeau","year":"2019","journal-title":"Bioinformatics"},{"key":"2024090414003638200_btae402-B4","first-page":"4171","author":"Devlin"},{"key":"2024090414003638200_btae402-B5","doi-asserted-by":"crossref","first-page":"D808","DOI":"10.1093\/nar\/gks1094","article-title":"STRING v9.1: protein\u2013protein interaction networks, with increased coverage and integration","volume":"41","author":"Franceschini","year":"2012","journal-title":"Nucleic Acids Res"},{"key":"2024090414003638200_btae402-B6","doi-asserted-by":"crossref","first-page":"baac019","DOI":"10.1093\/database\/baac019","article-title":"DISEASES 2.0: a weekly updated database of disease\u2013gene associations from text mining and data integration","volume":"2022","author":"Grissa","year":"2022","journal-title":"Database"},{"key":"2024090414003638200_btae402-B7","doi-asserted-by":"crossref","first-page":"1032","DOI":"10.1093\/bioinformatics\/btr042","article-title":"Genetukit: a software for document-level gene normalization","volume":"27","author":"Huang","year":"2011","journal-title":"Bioinformatics"},{"key":"2024090414003638200_btae402-B8","doi-asserted-by":"crossref","first-page":"38","DOI":"10.1093\/nar\/30.1.38","article-title":"The Ensembl genome database project","volume":"30","author":"Hubbard","year":"2002","journal-title":"Nucleic Acids Res"},{"key":"2024090414003638200_btae402-B9","author":"Jensen","year":"2016"},{"key":"2024090414003638200_btae402-B10","doi-asserted-by":"crossref","first-page":"27","DOI":"10.1093\/nar\/28.1.27","article-title":"KEGG: Kyoto encyclopedia of genes and genomes","volume":"28","author":"Kanehisa","year":"2000","journal-title":"Nucleic Acids Res"},{"key":"2024090414003638200_btae402-B11","first-page":"652","author":"Leaman","year":"2008"},{"key":"2024090414003638200_btae402-B12","doi-asserted-by":"crossref","first-page":"2909","DOI":"10.1093\/bioinformatics\/btt474","article-title":"Dnorm: disease name normalization with pairwise learning to rank","volume":"29","author":"Leaman","year":"2013","journal-title":"Bioinformatics"},{"key":"2024090414003638200_btae402-B13","doi-asserted-by":"crossref","first-page":"1234","DOI":"10.1093\/bioinformatics\/btz682","article-title":"BioBERT: a pre-trained biomedical language representation model for biomedical text mining","volume":"36","author":"Lee","year":"2019","journal-title":"Bioinformatics"},{"key":"2024090414003638200_btae402-B14","doi-asserted-by":"crossref","first-page":"357","DOI":"10.1093\/bib\/6.4.357","article-title":"What makes a gene name? named entity recognition in the biomedical literature","volume":"6","author":"Leser","year":"2005","journal-title":"Brief Bioinform"},{"key":"2024090414003638200_btae402-B15","doi-asserted-by":"crossref","first-page":"btad369","DOI":"10.1093\/bioinformatics\/btad369","article-title":"S1000: a better taxonomic name corpus for biomedical information extraction","volume":"39","author":"Luoma","year":"2023","journal-title":"Bioinformatics"},{"key":"2024090414003638200_btae402-B16","doi-asserted-by":"crossref","first-page":"126","DOI":"10.1093\/nar\/28.1.126","article-title":"Ncbi\u2019s locuslink and refseq","volume":"28","author":"Maglott","year":"2000","journal-title":"Nucleic Acids Res"},{"key":"2024090414003638200_btae402-B17","first-page":"101","author":"McClosky","year":"2008"},{"key":"2024090414003638200_btae402-B18","doi-asserted-by":"crossref","first-page":"baad080","DOI":"10.1093\/database\/baad080","article-title":"Overview of DrugProt task at BioCreative VII: data and methods for large-scale text mining and knowledge graph generation of heterogenous chemical\u2013protein relations","volume":"2023","author":"Miranda-Escalada","year":"2023","journal-title":"Database"},{"key":"2024090414003638200_btae402-B19","doi-asserted-by":"crossref","first-page":"3","DOI":"10.1075\/li.30.1.03nad","article-title":"A survey of named entity recognition and classification","volume":"30","author":"Nadeau","year":"2007","journal-title":"LI"},{"key":"2024090414003638200_btae402-B20","doi-asserted-by":"crossref","first-page":"e65390","DOI":"10.1371\/journal.pone.0065390","article-title":"The species and organisms resources for fast and accurate identification of taxonomic names in text","volume":"8","author":"Pafilis","year":"2013","journal-title":"PLoS One"},{"key":"2024090414003638200_btae402-B21","doi-asserted-by":"crossref","first-page":"baw005","DOI":"10.1093\/database\/baw005","article-title":"Extract: interactive extraction of environment metadata and term suggestion for metagenomic sample annotation","volume":"2016","author":"Pafilis","year":"2016","journal-title":"Database"},{"key":"2024090414003638200_btae402-B22","doi-asserted-by":"crossref","first-page":"bay003","DOI":"10.1093\/database\/bay003","article-title":"Tissues 2.0: an integrative web resource on mammalian tissue expression","volume":"2018","author":"Palasca","year":"2018","journal-title":"Database"},{"key":"2024090414003638200_btae402-B23","doi-asserted-by":"crossref","first-page":"673","DOI":"10.3389\/fcell.2020.00673","article-title":"Named entity recognition and relation detection for biomedical information extraction","volume":"8","author":"Perera","year":"2020","journal-title":"Front Cell Dev Biol"},{"key":"2024090414003638200_btae402-B24","doi-asserted-by":"crossref","first-page":"baaa062","DOI":"10.1093\/database\/baaa062","article-title":"NCBI taxonomy: a comprehensive update on curation, resources and tools","volume":"2020","author":"Schoch","year":"2020","journal-title":"Database"},{"key":"2024090414003638200_btae402-B25","doi-asserted-by":"crossref","first-page":"D940","DOI":"10.1093\/nar\/gkr972","article-title":"Disease ontology: a backbone for disease semantic integration","volume":"40","author":"Schriml","year":"2012","journal-title":"Nucleic Acids Res"},{"key":"2024090414003638200_btae402-B26","doi-asserted-by":"crossref","first-page":"D380","DOI":"10.1093\/nar\/gkv1277","article-title":"STITCH 5: augmenting protein\u2013chemical interaction networks with tissue and affinity data","volume":"44","author":"Szklarczyk","year":"2016","journal-title":"Nucleic Acids Res"},{"key":"2024090414003638200_btae402-B27","doi-asserted-by":"crossref","first-page":"D638","DOI":"10.1093\/nar\/gkac1000","article-title":"The STRING database in 2023: protein\u2013protein association networks and functional enrichment analyses for any sequenced genome of interest","volume":"51","author":"Szklarczyk","year":"2023","journal-title":"Nucleic Acids Res"},{"key":"2024090414003638200_btae402-B28","doi-asserted-by":"crossref","first-page":"e55814","DOI":"10.1371\/journal.pone.0055814","article-title":"Large-scale event extraction from literature with multi-level gene normalization","volume":"8","author":"Van Landeghem","year":"2013","journal-title":"PLoS One"},{"key":"2024090414003638200_btae402-B29","first-page":"6000","volume-title":"NIPS\u201917","author":"Vaswani","year":"2017"},{"key":"2024090414003638200_btae402-B30","author":"Wang","year":"2023"},{"key":"2024090414003638200_btae402-B31","doi-asserted-by":"crossref","first-page":"373","DOI":"10.1007\/s13042-015-0426-6","article-title":"A comparative study for biomedical named entity recognition","volume":"9","author":"Wang","year":"2018","journal-title":"Int J Mach Learn Cyber"},{"key":"2024090414003638200_btae402-B32","doi-asserted-by":"crossref","first-page":"W623","DOI":"10.1093\/nar\/gkp456","article-title":"PubChem: a public information system for analyzing bioactivities of small molecules","volume":"37","author":"Wang","year":"2009","journal-title":"Nucleic Acids Res"},{"key":"2024090414003638200_btae402-B33","doi-asserted-by":"crossref","first-page":"e38460","DOI":"10.1371\/journal.pone.0038460","article-title":"SR4GN: a species recognition software tool for gene normalization","volume":"7","author":"Wei","year":"2012","journal-title":"PLoS One"},{"key":"2024090414003638200_btae402-B34","doi-asserted-by":"crossref","first-page":"587","DOI":"10.1093\/nar\/gkz389","article-title":"PubTator Central: automated concept annotation for biomedical full text articles","volume":"47","author":"Wei","year":"2019","journal-title":"Nucleic Acids Res"},{"key":"2024090414003638200_btae402-B35","doi-asserted-by":"crossref","first-page":"e1005962","DOI":"10.1371\/journal.pcbi.1005962","article-title":"A comprehensive and quantitative comparison of text-mining in 15 million full-text articles versus their corresponding abstracts","volume":"14","author":"Westergaard","year":"2018","journal-title":"PLoS Comput Biol"}],"container-title":["Bioinformatics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/40\/Supplement_2\/ii45\/59017053\/btae402.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/40\/Supplement_2\/ii45\/59017053\/btae402.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,5]],"date-time":"2024-09-05T03:48:12Z","timestamp":1725508092000},"score":1,"resource":{"primary":{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article\/40\/Supplement_2\/ii45\/7749086"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,1]]},"references-count":35,"journal-issue":{"issue":"Supplement_2","published-print":{"date-parts":[[2024,9,1]]}},"URL":"https:\/\/doi.org\/10.1093\/bioinformatics\/btae402","relation":{"has-preprint":[{"id-type":"doi","id":"10.1101\/2023.12.10.570777","asserted-by":"object"}]},"ISSN":["1367-4803","1367-4811"],"issn-type":[{"value":"1367-4803","type":"print"},{"value":"1367-4811","type":"electronic"}],"subject":[],"published-other":{"date-parts":[[2024,9]]},"published":{"date-parts":[[2024,9,1]]}}}