{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,7]],"date-time":"2026-03-07T18:20:22Z","timestamp":1772907622157,"version":"3.50.1"},"reference-count":10,"publisher":"Oxford University Press (OUP)","issue":"18","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2014,9,15]]},"abstract":"<jats:title>Abstract<\/jats:title>\n               <jats:p>Summary: Many time-consuming analyses of next - generation sequencing data can be addressed with modern cloud computing. The Apache Hadoop-based solutions have become popular in genomics because of their scalability in a cloud infrastructure. So far, most of these tools have been used for batch data processing rather than interactive data querying.<\/jats:p>\n               <jats:p>The SparkSeq software has been created to take advantage of a new MapReduce framework, Apache Spark, for next-generation sequencing data. SparkSeq is a general-purpose, flexible and easily extendable library for genomic cloud computing. It can be used to build genomic analysis pipelines in Scala and run them in an interactive way. SparkSeq opens up the possibility of customized ad hoc secondary analyses and iterative machine learning algorithms. This article demonstrates its scalability and overall fast performance by running the analyses of sequencing datasets. Tests of SparkSeq also prove that the use of cache and HDFS block size can be tuned for the optimal performance on multiple worker nodes.<\/jats:p>\n               <jats:p>Availability and implementation: Available under open source Apache 2.0 license: https:\/\/bitbucket.org\/mwiewiorka\/sparkseq\/ .<\/jats:p>\n               <jats:p>Contact: \u00a0marek.wiewiorka@gmail.com<\/jats:p>\n               <jats:p>Supplementary information: \u00a0Supplementary data are available at Bioinformatics online.<\/jats:p>","DOI":"10.1093\/bioinformatics\/btu343","type":"journal-article","created":{"date-parts":[[2014,5,21]],"date-time":"2014-05-21T02:15:06Z","timestamp":1400638506000},"page":"2652-2653","source":"Crossref","is-referenced-by-count":89,"title":["SparkSeq: fast, scalable and cloud-ready tool for the interactive genomic data analysis with nucleotide precision"],"prefix":"10.1093","volume":"30","author":[{"given":"Marek S.","family":"Wiewi\u00f3rka","sequence":"first","affiliation":[{"name":"1 Institute of Computer Science, Warsaw University of Technology, Warsaw, Poland, ICS 00-665 Warsaw (MW, PG), 2 Grid Computing Competence Center-GC3, University of Zurich, 8057 Z\u00fcrich (SM, AM), 3 Swiss Institute of Equine Medicine, Vetsuisse Faculty, University of Bern and ALP-Haras, 3001 Bern (AP), 4 Institute of Genetics, Vetsuisse Faculty, University of Bern, Bern, 3001 Bern (AP) and 5 Functional Genomics Center Zurich, CH-8057 Zurich, Switzerland"}]},{"given":"Antonio","family":"Messina","sequence":"additional","affiliation":[{"name":"1 Institute of Computer Science, Warsaw University of Technology, Warsaw, Poland, ICS 00-665 Warsaw (MW, PG), 2 Grid Computing Competence Center-GC3, University of Zurich, 8057 Z\u00fcrich (SM, AM), 3 Swiss Institute of Equine Medicine, Vetsuisse Faculty, University of Bern and ALP-Haras, 3001 Bern (AP), 4 Institute of Genetics, Vetsuisse Faculty, University of Bern, Bern, 3001 Bern (AP) and 5 Functional Genomics Center Zurich, CH-8057 Zurich, Switzerland"}]},{"given":"Alicja","family":"Pacholewska","sequence":"additional","affiliation":[{"name":"1 Institute of Computer Science, Warsaw University of Technology, Warsaw, Poland, ICS 00-665 Warsaw (MW, PG), 2 Grid Computing Competence Center-GC3, University of Zurich, 8057 Z\u00fcrich (SM, AM), 3 Swiss Institute of Equine Medicine, Vetsuisse Faculty, University of Bern and ALP-Haras, 3001 Bern (AP), 4 Institute of Genetics, Vetsuisse Faculty, University of Bern, Bern, 3001 Bern (AP) and 5 Functional Genomics Center Zurich, CH-8057 Zurich, Switzerland"},{"name":"1 Institute of Computer Science, Warsaw University of Technology, Warsaw, Poland, ICS 00-665 Warsaw (MW, PG), 2 Grid Computing Competence Center-GC3, University of Zurich, 8057 Z\u00fcrich (SM, AM), 3 Swiss Institute of Equine Medicine, Vetsuisse Faculty, University of Bern and ALP-Haras, 3001 Bern (AP), 4 Institute of Genetics, Vetsuisse Faculty, University of Bern, Bern, 3001 Bern (AP) and 5 Functional Genomics Center Zurich, CH-8057 Zurich, Switzerland"}]},{"given":"Sergio","family":"Maffioletti","sequence":"additional","affiliation":[{"name":"1 Institute of Computer Science, Warsaw University of Technology, Warsaw, Poland, ICS 00-665 Warsaw (MW, PG), 2 Grid Computing Competence Center-GC3, University of Zurich, 8057 Z\u00fcrich (SM, AM), 3 Swiss Institute of Equine Medicine, Vetsuisse Faculty, University of Bern and ALP-Haras, 3001 Bern (AP), 4 Institute of Genetics, Vetsuisse Faculty, University of Bern, Bern, 3001 Bern (AP) and 5 Functional Genomics Center Zurich, CH-8057 Zurich, Switzerland"}]},{"given":"Piotr","family":"Gawrysiak","sequence":"additional","affiliation":[{"name":"1 Institute of Computer Science, Warsaw University of Technology, Warsaw, Poland, ICS 00-665 Warsaw (MW, PG), 2 Grid Computing Competence Center-GC3, University of Zurich, 8057 Z\u00fcrich (SM, AM), 3 Swiss Institute of Equine Medicine, Vetsuisse Faculty, University of Bern and ALP-Haras, 3001 Bern (AP), 4 Institute of Genetics, Vetsuisse Faculty, University of Bern, Bern, 3001 Bern (AP) and 5 Functional Genomics Center Zurich, CH-8057 Zurich, Switzerland"}]},{"given":"Micha\u0142 J.","family":"Okoniewski","sequence":"additional","affiliation":[{"name":"1 Institute of Computer Science, Warsaw University of Technology, Warsaw, Poland, ICS 00-665 Warsaw (MW, PG), 2 Grid Computing Competence Center-GC3, University of Zurich, 8057 Z\u00fcrich (SM, AM), 3 Swiss Institute of Equine Medicine, Vetsuisse Faculty, University of Bern and ALP-Haras, 3001 Bern (AP), 4 Institute of Genetics, Vetsuisse Faculty, University of Bern, Bern, 3001 Bern (AP) and 5 Functional Genomics Center Zurich, CH-8057 Zurich, Switzerland"}]}],"member":"286","published-online":{"date-parts":[[2014,5,19]]},"reference":[{"key":"2023012711553471900_btu343-B1","doi-asserted-by":"crossref","first-page":"1765","DOI":"10.1038\/nprot.2013.099","article-title":"Count-based differential expression analysis of RNA sequencing data using R and Bioconductor","volume":"8","author":"Anders","year":"2013","journal-title":"Nat. Protoc."},{"key":"2023012711553471900_btu343-B2","volume-title":"The Hadoop Distributed File System: Architecture and Design","author":"Borthakur","year":"2007"},{"key":"2023012711553471900_btu343-B3","doi-asserted-by":"crossref","first-page":"413","DOI":"10.1093\/biostatistics\/kxt053","article-title":"Differential expression analysis of RNA-seq data at single-base resolution","volume":"15","author":"Frazee","year":"2014","journal-title":"Biostatistics"},{"key":"2023012711553471900_btu343-B4","doi-asserted-by":"crossref","first-page":"R83","DOI":"10.1186\/gb-2010-11-8-r83","article-title":"Cloud-scale RNA-sequencing differential expression analysis with Myrna","volume":"11","author":"Langmead","year":"2010","journal-title":"Genome Biol."},{"key":"2023012711553471900_btu343-B5","doi-asserted-by":"crossref","first-page":"200","DOI":"10.1186\/1471-2105-12-200","article-title":"rnaSeqMap: a Bioconductor package for RNA sequencing data exploration","volume":"12","author":"Le\u015bniewska","year":"2011","journal-title":"BMC Bioinformatics"},{"key":"2023012711553471900_btu343-B6","doi-asserted-by":"crossref","first-page":"2078","DOI":"10.1093\/bioinformatics\/btp352","article-title":"The Sequence Alignment\/Map format and SAMtools","volume":"25","author":"Li","year":"2009","journal-title":"Bioinformatics"},{"key":"2023012711553471900_btu343-B7","doi-asserted-by":"crossref","first-page":"876","DOI":"10.1093\/bioinformatics\/bts054","article-title":"Hadoop-BAM: directly manipulating next generation sequencing data in the cloud","volume":"28","author":"Niemenmaa","year":"2012","journal-title":"Bioinformatics"},{"key":"2023012711553471900_btu343-B9","doi-asserted-by":"crossref","first-page":"119","DOI":"10.1093\/bioinformatics\/btt601","article-title":"Seqpig: simple and scalable scripting for large sequencing data sets in hadoop","volume":"30","author":"Schumacher","year":"2014","journal-title":"Bioinformatics"},{"key":"2023012711553471900_btu343-B10","doi-asserted-by":"crossref","first-page":"S1","DOI":"10.1186\/1471-2105-11-S12-S1","article-title":"An overview of the Hadoop\/MapReduce\/HBase framework and its current applications in bioinformatics","volume":"11","author":"Taylor","year":"2010","journal-title":"BMC Bioinformatics"},{"key":"2023012711553471900_btu343-B11","article-title":"Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing","volume-title":"Proceedings of the 9th USENIX Conference","author":"Zaharia","year":"2012"}],"container-title":["Bioinformatics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/30\/18\/2652\/48929331\/bioinformatics_30_18_2652.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/30\/18\/2652\/48929331\/bioinformatics_30_18_2652.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,1,27]],"date-time":"2023-01-27T12:36:58Z","timestamp":1674823018000},"score":1,"resource":{"primary":{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article\/30\/18\/2652\/2475607"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2014,5,19]]},"references-count":10,"journal-issue":{"issue":"18","published-print":{"date-parts":[[2014,9,15]]}},"URL":"https:\/\/doi.org\/10.1093\/bioinformatics\/btu343","relation":{},"ISSN":["1367-4811","1367-4803"],"issn-type":[{"value":"1367-4811","type":"electronic"},{"value":"1367-4803","type":"print"}],"subject":[],"published-other":{"date-parts":[[2014,9,15]]},"published":{"date-parts":[[2014,5,19]]}}}