{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,15]],"date-time":"2026-01-15T11:23:15Z","timestamp":1768476195735,"version":"3.49.0"},"reference-count":7,"publisher":"Oxford University Press (OUP)","issue":"17","license":[{"start":{"date-parts":[[2017,5,5]],"date-time":"2017-05-05T00:00:00Z","timestamp":1493942400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/academic.oup.com\/journals\/pages\/about_us\/legal\/notices"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2017,9,1]]},"abstract":"<jats:title>Abstract<\/jats:title>\n               <jats:sec>\n                  <jats:title>Summary<\/jats:title>\n                  <jats:p>This article presents MarDRe, a de novo cloud-ready duplicate and near-duplicate removal tool that can process single- and paired-end reads from FASTQ\/FASTA datasets. MarDRe takes advantage of the widely adopted MapReduce programming model to fully exploit Big Data technologies on cloud-based infrastructures. Written in Java to maximize cross-platform compatibility, MarDRe is built upon the open-source Apache Hadoop project, the most popular distributed computing framework for scalable Big Data processing. On a 16-node cluster deployed on the Amazon EC2 cloud platform, MarDRe is up to 8.52 times faster than a representative state-of-the-art tool.<\/jats:p>\n               <\/jats:sec>\n               <jats:sec>\n                  <jats:title>Availability and implementation<\/jats:title>\n                  <jats:p>Source code in Java and Hadoop as well as a user\u2019s guide are freely available under the GNU GPLv3 license at http:\/\/mardre.des.udc.es.<\/jats:p>\n               <\/jats:sec>","DOI":"10.1093\/bioinformatics\/btx307","type":"journal-article","created":{"date-parts":[[2017,5,4]],"date-time":"2017-05-04T19:11:17Z","timestamp":1493925077000},"page":"2762-2764","source":"Crossref","is-referenced-by-count":16,"title":["MarDRe: efficient MapReduce-based removal of duplicate DNA reads in the cloud"],"prefix":"10.1093","volume":"33","author":[{"given":"Roberto R","family":"Exp\u00f3sito","sequence":"first","affiliation":[{"name":"Grupo de Arquitectura de Computadores, Universidade da Coru\u00f1a, Campus de A Coru\u00f1a, A Coru\u00f1a, Spain"}]},{"given":"Jorge","family":"Veiga","sequence":"additional","affiliation":[{"name":"Grupo de Arquitectura de Computadores, Universidade da Coru\u00f1a, Campus de A Coru\u00f1a, A Coru\u00f1a, Spain"}]},{"given":"Jorge","family":"Gonz\u00e1lez-Dom\u00ednguez","sequence":"additional","affiliation":[{"name":"Grupo de Arquitectura de Computadores, Universidade da Coru\u00f1a, Campus de A Coru\u00f1a, A Coru\u00f1a, Spain"}]},{"given":"Juan","family":"Touri\u00f1o","sequence":"additional","affiliation":[{"name":"Grupo de Arquitectura de Computadores, Universidade da Coru\u00f1a, Campus de A Coru\u00f1a, A Coru\u00f1a, Spain"}]}],"member":"286","published-online":{"date-parts":[[2017,5,5]]},"reference":[{"key":"2023020206272005900_btx307-B1","doi-asserted-by":"crossref","first-page":"1324","DOI":"10.1093\/bioinformatics\/bts123","article-title":"Fulcrum: condensing redundant reads from high-throughput sequencing studies","volume":"28","author":"Burriesci","year":"2012","journal-title":"Bioinformatics"},{"key":"2023020206272005900_btx307-B2","doi-asserted-by":"crossref","first-page":"107","DOI":"10.1145\/1327452.1327492","article-title":"MapReduce: simplified data processing on large clusters","volume":"51","author":"Dean","year":"2008","journal-title":". Commun. ACM"},{"key":"2023020206272005900_btx307-B3","doi-asserted-by":"crossref","first-page":"239","DOI":"10.1186\/s12859-016-1097-3","article-title":"Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches","volume":"17","author":"Ebbert","year":"2016","journal-title":"BMC Bioinformatics"},{"key":"2023020206272005900_btx307-B4","doi-asserted-by":"crossref","first-page":"1562","DOI":"10.1093\/bioinformatics\/btw038","article-title":"ParDRe: faster parallel duplicated reads removal tool for sequencing studies","volume":"32","author":"Gonz\u00e1lez-Dom\u00ednguez","year":"2016","journal-title":"Bioinformatics"},{"key":"2023020206272005900_btx307-B5","doi-asserted-by":"crossref","first-page":"774","DOI":"10.1016\/j.jbi.2013.07.001","article-title":"\u2018Big data\u2019, Hadoop and cloud computing in genomics","volume":"46","author":"O\u2019Driscoll","year":"2013","journal-title":"J. Biomed. Inform"},{"key":"2023020206272005900_btx307-B6","doi-asserted-by":"crossref","first-page":"2159","DOI":"10.1093\/bioinformatics\/btr325","article-title":"SEAL: a distributed short read mapping and duplicate removal tool","volume":"27","author":"Pireddu","year":"2011","journal-title":"Bioinformatics"},{"key":"2023020206272005900_btx307-B7","doi-asserted-by":"crossref","first-page":"637","DOI":"10.1093\/bib\/bbs088","article-title":"Survey of MapReduce frame operation in bioinformatics","volume":"15","author":"Zou","year":"2013","journal-title":"Brief. Bioinformatics"}],"container-title":["Bioinformatics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/33\/17\/2762\/49040983\/bioinformatics_33_17_2762.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/33\/17\/2762\/49040983\/bioinformatics_33_17_2762.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,2,2]],"date-time":"2023-02-02T06:29:31Z","timestamp":1675319371000},"score":1,"resource":{"primary":{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article\/33\/17\/2762\/3798631"}},"subtitle":[],"editor":[{"given":"John","family":"Hancock","sequence":"additional","affiliation":[]}],"short-title":[],"issued":{"date-parts":[[2017,5,5]]},"references-count":7,"journal-issue":{"issue":"17","published-print":{"date-parts":[[2017,9,1]]}},"URL":"https:\/\/doi.org\/10.1093\/bioinformatics\/btx307","relation":{},"ISSN":["1367-4803","1367-4811"],"issn-type":[{"value":"1367-4803","type":"print"},{"value":"1367-4811","type":"electronic"}],"subject":[],"published-other":{"date-parts":[[2017,9,1]]},"published":{"date-parts":[[2017,5,5]]}}}