{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,26]],"date-time":"2026-02-26T20:34:58Z","timestamp":1772138098202,"version":"3.50.1"},"reference-count":38,"publisher":"Oxford University Press (OUP)","issue":"1","license":[{"start":{"date-parts":[[2019,6,14]],"date-time":"2019-06-14T00:00:00Z","timestamp":1560470400000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100009708","name":"Novo Nordisk Foundation","doi-asserted-by":"publisher","award":["NNF14CC0001"],"award-info":[{"award-number":["NNF14CC0001"]}],"id":[{"id":"10.13039\/501100009708","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000002","name":"National Institutes of Health","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000002","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000002","name":"NIH","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000002","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Druggable Genome Knowledge Management Center","award":["U54 CA189205"],"award-info":[{"award-number":["U54 CA189205"]}]},{"name":"Druggable Genome Knowledge Management Center","award":["U24 224370"],"award-info":[{"award-number":["U24 224370"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2020,1,1]]},"abstract":"<jats:title>Abstract<\/jats:title>\n                  <jats:sec>\n                    <jats:title>Motivation<\/jats:title>\n                    <jats:p>Information extraction by mining the scientific literature is key to uncovering relations between biomedical entities. Most existing approaches based on natural language processing extract relations from single sentence-level co-mentions, ignoring co-occurrence statistics over the whole corpus. Existing approaches counting entity co-occurrences ignore the textual context of each co-occurrence.<\/jats:p>\n                  <\/jats:sec>\n                  <jats:sec>\n                    <jats:title>Results<\/jats:title>\n                    <jats:p>We propose a novel corpus-wide co-occurrence scoring approach to relation extraction that takes the textual context of each co-mention into account. Our method, called CoCoScore, scores the certainty of stating an association for each sentence that co-mentions two entities. CoCoScore is trained using distant supervision based on a gold-standard set of associations between entities of interest. Instead of requiring a manually annotated training corpus, co-mentions are labeled as positives\/negatives according to their presence\/absence in the gold standard. We show that CoCoScore outperforms previous approaches in identifying human disease\u2013gene and tissue\u2013gene associations as well as in identifying physical and functional protein\u2013protein associations in different species. CoCoScore is a versatile text mining tool to uncover pairwise associations via co-occurrence mining, within and beyond biomedical applications.<\/jats:p>\n                  <\/jats:sec>\n                  <jats:sec>\n                    <jats:title>Availability and implementation<\/jats:title>\n                    <jats:p>CoCoScore is available at: https:\/\/github.com\/JungeAlexander\/cocoscore.<\/jats:p>\n                  <\/jats:sec>\n                  <jats:sec>\n                    <jats:title>Supplementary information<\/jats:title>\n                    <jats:p>Supplementary data are available at Bioinformatics online.<\/jats:p>\n                  <\/jats:sec>","DOI":"10.1093\/bioinformatics\/btz490","type":"journal-article","created":{"date-parts":[[2019,6,10]],"date-time":"2019-06-10T23:13:33Z","timestamp":1560208413000},"page":"264-271","source":"Crossref","is-referenced-by-count":21,"title":["CoCoScore: context-aware co-occurrence scoring for text mining applications using distant supervision"],"prefix":"10.1093","volume":"36","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-2410-9671","authenticated-orcid":false,"given":"Alexander","family":"Junge","sequence":"first","affiliation":[{"name":"Disease Systems Biology Program, Novo Nordisk Foundation Center for Protein Research, University of Copenhagen , Copenhagen N 2200, Denmark"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7885-715X","authenticated-orcid":false,"given":"Lars Juhl","family":"Jensen","sequence":"additional","affiliation":[{"name":"Disease Systems Biology Program, Novo Nordisk Foundation Center for Protein Research, University of Copenhagen , Copenhagen N 2200, Denmark"}]}],"member":"286","published-online":{"date-parts":[[2019,6,14]]},"reference":[{"key":"2023013109502263100_btz490-B1","doi-asserted-by":"crossref","first-page":"W530","DOI":"10.1093\/nar\/gky355","article-title":"LitVar: a semantic search engine for linking genomic variant data in PubMed and PMC","volume":"46","author":"Allot","year":"2018","journal-title":"Nucleic Acids Res"},{"key":"2023013109502263100_btz490-B2","doi-asserted-by":"crossref","first-page":"51.","DOI":"10.1186\/s13326-017-0157-6","article-title":"Entity recognition in the biomedical domain using a hybrid approach","volume":"8","author":"Basaldella","year":"2017","journal-title":"J. Biomed. Seman"},{"key":"2023013109502263100_btz490-B3","author":"Bojanowski","year":"2016"},{"key":"2023013109502263100_btz490-B4","doi-asserted-by":"crossref","first-page":"55","DOI":"10.1186\/s12859-015-0472-9","article-title":"Extraction of relations between genes and diseases from text and large-scale data analysis: implications for translational research","volume":"16","author":"Bravo","year":"2015","journal-title":"BMC Bioinformatics"},{"key":"2023013109502263100_btz490-B5","doi-asserted-by":"crossref","first-page":"207.","DOI":"10.1186\/1471-2105-9-207","article-title":"Extraction of semantic biomedical relations from text using conditional random fields","volume":"9","author":"Bundschus","year":"2008","journal-title":"BMC Bioinformatics"},{"key":"2023013109502263100_btz490-B6","doi-asserted-by":"crossref","first-page":"15.","DOI":"10.1186\/s12859-018-2021-9","article-title":"LocText: relation extraction of protein localizations to assist database curation","volume":"19","author":"Cejuela","year":"2018","journal-title":"BMC Bioinformatics"},{"key":"2023013109502263100_btz490-B7","author":"Comeau","year":"2018"},{"key":"2023013109502263100_btz490-B8","first-page":"77","author":"Craven","year":"1999"},{"key":"2023013109502263100_btz490-B9","author":"Do\u011fan","year":"2014"},{"key":"2023013109502263100_btz490-B10","first-page":"274","article-title":"\u2018Genetics home reference\u2019: helping patients understand the role of genetics in health and disease","volume":"9","author":"Fomous","year":"2006","journal-title":"Commun. Genet"},{"key":"2023013109502263100_btz490-B11","doi-asserted-by":"crossref","first-page":"D808","DOI":"10.1093\/nar\/gks1094","article-title":"STRING v9.1: protein\u2013protein interaction networks, with increased coverage and integration","volume":"41","author":"Franceschini","year":"2013","journal-title":"Nucleic Acids Res"},{"key":"2023013109502263100_btz490-B12","doi-asserted-by":"crossref","first-page":"85.","DOI":"10.1186\/1471-2105-11-85","article-title":"LINNAEUS: a species name identification system for biomedical literature","volume":"11","author":"Gerner","year":"2010","journal-title":"BMC Bioinformatics"},{"key":"2023013109502263100_btz490-B13","doi-asserted-by":"crossref","first-page":"D507","DOI":"10.1093\/nar\/gkq968","article-title":"The BRENDA Tissue Ontology (BTO): the first all-integrating ontology of all organisms for enzyme sources","volume":"39","author":"Gremse","year":"2011","journal-title":"Nucleic Acids Res"},{"key":"2023013109502263100_btz490-B14","doi-asserted-by":"crossref","first-page":"41.","DOI":"10.1186\/1758-2946-3-41","article-title":"OSCAR4: a flexible architecture for chemical text-mining","volume":"3","author":"Jessop","year":"2011","journal-title":"J. Cheminform"},{"key":"2023013109502263100_btz490-B15","author":"Joulin","year":"2016"},{"key":"2023013109502263100_btz490-B16","first-page":"900","volume-title":"Chapter 22 Information Extraction","author":"Jurafsky","year":"2008","edition":"2nd edn."},{"key":"2023013109502263100_btz490-B17","doi-asserted-by":"crossref","first-page":"D353","DOI":"10.1093\/nar\/gkw1092","article-title":"KEGG: new perspectives on genomes, pathways, diseases and drugs","volume":"45","author":"Kanehisa","year":"2017","journal-title":"Nucleic Acids Res"},{"key":"2023013109502263100_btz490-B18","doi-asserted-by":"crossref","first-page":"D1071","DOI":"10.1093\/nar\/gku1011","article-title":"Disease Ontology 2015 update: an expanded and updated database of human diseases for linking biomedical knowledge through disease data","volume":"43","author":"Kibbe","year":"2015","journal-title":"Nucleic Acids Res"},{"key":"2023013109502263100_btz490-B19","doi-asserted-by":"crossref","first-page":"e0171929.","DOI":"10.1371\/journal.pone.0171929","article-title":"Extracting microRNA\u2013gene relations from biomedical literature using distant supervision","volume":"12","author":"Lamurias","year":"2017","journal-title":"PLoS One"},{"key":"2023013109502263100_btz490-B20","doi-asserted-by":"crossref","first-page":"2839","DOI":"10.1093\/bioinformatics\/btw343","article-title":"TaggerOne: joint named entity recognition and normalization with semi-Markov Models","volume":"32","author":"Leaman","year":"2016","journal-title":"Bioinformatics"},{"key":"2023013109502263100_btz490-B21","doi-asserted-by":"crossref","first-page":"603","DOI":"10.1038\/nmeth.3945","article-title":"Points of significance: classification evaluation","volume":"13","author":"Lever","year":"2016","journal-title":"Nat. Methods"},{"key":"2023013109502263100_btz490-B22","first-page":"376","author":"Lichtnwalter","year":"2012"},{"key":"2023013109502263100_btz490-B23","doi-asserted-by":"crossref","first-page":"i565","DOI":"10.1093\/bioinformatics\/bty273","article-title":"Deep neural networks and distant supervision for geographic location mention extraction","volume":"34","author":"Magge","year":"2018","journal-title":"Bioinformatics"},{"key":"2023013109502263100_btz490-B24","author":"Mikolov","year":"2013"},{"key":"2023013109502263100_btz490-B25","doi-asserted-by":"crossref","first-page":"e309.","DOI":"10.1371\/journal.pbio.0020309","article-title":"Textpresso: an ontology-based information retrieval and extraction system for biological literature","volume":"2","author":"Muller","year":"2004","journal-title":"PLoS Biol"},{"key":"2023013109502263100_btz490-B26","doi-asserted-by":"crossref","first-page":"e65390.","DOI":"10.1371\/journal.pone.0065390","article-title":"The SPECIES and ORGANISMS resources for fast and accurate identification of taxonomic names in text","volume":"8","author":"Pafilis","year":"2013","journal-title":"PLoS One"},{"key":"2023013109502263100_btz490-B27","doi-asserted-by":"crossref","DOI":"10.1093\/database\/bay003","article-title":"TISSUES 2.0: an integrative web resource on mammalian tissue expression","volume":"2018","author":"Palasca","year":"2018","journal-title":"Database (Oxford)"},{"key":"2023013109502263100_btz490-B28","doi-asserted-by":"crossref","first-page":"D833","DOI":"10.1093\/nar\/gkw943","article-title":"DisGeNET: a comprehensive platform integrating information on human disease-associated genes and variants","volume":"45","author":"Pinero","year":"2017","journal-title":"Nucleic Acids Res"},{"key":"2023013109502263100_btz490-B29","doi-asserted-by":"crossref","first-page":"83","DOI":"10.1016\/j.ymeth.2014.11.020","article-title":"DISEASES: text mining and data integration of disease\u2013gene associations","volume":"74","author":"Pletscher-Frankild","year":"2015","journal-title":"Methods"},{"key":"2023013109502263100_btz490-B30","first-page":"120","article-title":"Distant supervision for cancer pathway extraction from text","author":"Poon","year":"2015","journal-title":"Proceedings of the Pacific Symposium on Biocomputing, Kohala Coast, Hawaii"},{"key":"2023013109502263100_btz490-B31","doi-asserted-by":"crossref","first-page":"S2","DOI":"10.1186\/2041-1480-3-S3-S2","article-title":"Literature mining of protein-residue associations with graph rules learned through distant supervision","volume":"3","author":"Ravikumar","year":"2012","journal-title":"J. Biomed. Seman"},{"key":"2023013109502263100_btz490-B32","doi-asserted-by":"crossref","first-page":"2973","DOI":"10.1093\/bioinformatics\/bty190","article-title":"Generalizing biomedical relation classification with neural adversarial domain adaptation","volume":"34","author":"Rios","year":"2018","journal-title":"Bioinformatics"},{"key":"2023013109502263100_btz490-B33","doi-asserted-by":"crossref","first-page":"e1054.","DOI":"10.7717\/peerj.1054","article-title":"Comprehensive comparison of large-scale tissue expression datasets","volume":"3","author":"Santos","year":"2015","journal-title":"PeerJ"},{"key":"2023013109502263100_btz490-B34","author":"Saric","year":"2004"},{"key":"2023013109502263100_btz490-B35","doi-asserted-by":"crossref","first-page":"27","DOI":"10.1093\/nar\/gkv1310","article-title":"The SIB Swiss Institute of Bioinformatics\u2019 resources: focus on curated databases","volume":"44","year":"2016","journal-title":"Nucleic Acids Res"},{"key":"2023013109502263100_btz490-B36","doi-asserted-by":"crossref","first-page":"D380","DOI":"10.1093\/nar\/gkv1277","article-title":"STITCH 5: augmenting protein\u2013chemical interaction networks with tissue and affinity data","volume":"44","author":"Szklarczyk","year":"2016","journal-title":"Nucleic Acids Res"},{"key":"2023013109502263100_btz490-B37","doi-asserted-by":"crossref","first-page":"D362","DOI":"10.1093\/nar\/gkw937","article-title":"The STRING database in 2017: quality-controlled protein\u2013protein association networks, made broadly accessible","volume":"45","author":"Szklarczyk","year":"2017","journal-title":"Nucleic Acids Res"},{"key":"2023013109502263100_btz490-B38","doi-asserted-by":"crossref","first-page":"D619","DOI":"10.1093\/nar\/gkw1033","article-title":"Genenames.org: the HGNC and VGNC resources in 2017","volume":"45","author":"Yates","year":"2017","journal-title":"Nucleic Acids Res"}],"container-title":["Bioinformatics"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/academic.oup.com\/bioinformatics\/advance-article-pdf\/doi\/10.1093\/bioinformatics\/btz490\/28971347\/btz490.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/36\/1\/264\/48981379\/bioinformatics_36_1_264.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/36\/1\/264\/48981379\/bioinformatics_36_1_264.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,1,31]],"date-time":"2023-01-31T13:32:08Z","timestamp":1675171928000},"score":1,"resource":{"primary":{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article\/36\/1\/264\/5519116"}},"subtitle":[],"editor":[{"given":"Jonathan","family":"Wren","sequence":"additional","affiliation":[]}],"short-title":[],"issued":{"date-parts":[[2019,6,14]]},"references-count":38,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2020,1,1]]}},"URL":"https:\/\/doi.org\/10.1093\/bioinformatics\/btz490","relation":{"has-preprint":[{"id-type":"doi","id":"10.1101\/444398","asserted-by":"object"}]},"ISSN":["1367-4803","1367-4811"],"issn-type":[{"value":"1367-4803","type":"print"},{"value":"1367-4811","type":"electronic"}],"subject":[],"published-other":{"date-parts":[[2020,1,1]]},"published":{"date-parts":[[2019,6,14]]}}}