{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,22]],"date-time":"2026-03-22T09:47:15Z","timestamp":1774172835037,"version":"3.50.1"},"reference-count":60,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2019,2,26]],"date-time":"2019-02-26T00:00:00Z","timestamp":1551139200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Big Data"],"published-print":{"date-parts":[[2019,12]]},"DOI":"10.1186\/s40537-019-0185-4","type":"journal-article","created":{"date-parts":[[2019,2,26]],"date-time":"2019-02-26T06:38:32Z","timestamp":1551163112000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":37,"title":["Gapprox: using Gallup approach for approximation in Big Data processing"],"prefix":"10.1186","volume":"6","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1121-1914","authenticated-orcid":false,"given":"Hossein","family":"Ahmadvand","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Maziar","family":"Goudarzi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fouzhan","family":"Foroutan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2019,2,26]]},"reference":[{"key":"185_CR1","unstructured":"Walton CB, Dale AG, Jenevein RM. A taxonomy and performance model of data skew effects in parallel joins. In: VLDB, vol. 91; 1991."},{"key":"185_CR2","unstructured":"Ananthanarayanan G, Kandula S, Greenberg AG, Stoica I, Lu Y, Saha B, Harris E. Reining in the outliers in map-reduce clusters using Mantri. In: OSDI\u201910 Proceedings of the 9th USENIX conference on Operating systems design and implementation, Vancouver, BC, Canada; 2010."},{"issue":"1","key":"185_CR3","doi-asserted-by":"publisher","first-page":"107","DOI":"10.1145\/1327452.1327492","volume":"51","author":"J Dean","year":"1958","unstructured":"Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters. Commun ACM. 1958;51(1):107\u201313.","journal-title":"Commun ACM"},{"key":"185_CR4","unstructured":"Ananthanarayanan G, Hung MC, Ren X, Stoica I, Wierman A, Yu M. GRASS: trimming stragglers in approximation. In: Proceedings of the USENIX symposium on networked systems design and implementation (NSDI); 2014."},{"key":"185_CR5","doi-asserted-by":"crossref","unstructured":"Baek W, Chilimbi TM. Green: a framework for supporting energy-conscious programming using controlled approximation. In: Proceedings of the ACM SIGPLAN conference on programming language design and implementation; 2010.","DOI":"10.1145\/1806596.1806620"},{"issue":"2","key":"185_CR6","doi-asserted-by":"publisher","first-page":"9","DOI":"10.1145\/1242524.1242526","volume":"32","author":"S Chaudhuri","year":"2007","unstructured":"Chaudhuri S, Das G, Narasayya V. Optimized stratified sampling for approximate query processing. ACM Trans Database Syst. 2007;32(2):9.","journal-title":"ACM Trans Database Syst."},{"key":"185_CR7","unstructured":"Garofalakis MN, Gibbon PB. Approximate query processing: taming the TeraBytes. In: Proceedings of the international conference on very large databases (VLDB); 2001."},{"key":"185_CR8","doi-asserted-by":"crossref","unstructured":"Sampson A, Dietl W, Fortuna E, Gnanapragasam D, Ceze L, Grossman D. EnerJ: approximate data types for safe and general low-power computation. In: Proceedings of the ACM SIGPLAN Conference on Programming Language Design and Implementation (PLDI); 2011.","DOI":"10.1145\/1993498.1993518"},{"key":"185_CR9","first-page":"62","volume":"48","author":"S Mittal","year":"2016","unstructured":"Mittal S. A survey of techniques for approximate computing. ACM Comput Surv. 2016;48:62.","journal-title":"ACM Comput Surv"},{"key":"185_CR10","doi-asserted-by":"crossref","unstructured":"Agarwal S, Mozafari B, Panda A, Milner H, Madden S, Stoica I. BlinkDB: queries with bounded errors and bounded response times on very large data. In: Proceedings of the European conference on computer systems (EuroSys). 2013.","DOI":"10.1145\/2465351.2465355"},{"issue":"3","key":"185_CR11","doi-asserted-by":"publisher","first-page":"197","DOI":"10.1023\/A:1008935410038","volume":"10","author":"A Doucet","year":"2000","unstructured":"Doucet A, Godsill S, Andrieu C. On sequential Monte Carlo sampling methods for Bayesian filtering. Stat Comput. 2000;10(3):197\u2013208.","journal-title":"Stat Comput"},{"key":"185_CR12","doi-asserted-by":"crossref","unstructured":"Liu JW, Shih WK, Lin KJ, Bettati R, Chung JY. Imprecise computations. In: Proceedings of the IEEE. 1994.","DOI":"10.1109\/5.259428"},{"key":"185_CR13","doi-asserted-by":"crossref","unstructured":"Misailovic S, Roy DM, Rinard MC. Probabilistically accurate program transformations. In: International Static Analysis Symposium. 2011.","DOI":"10.1007\/978-3-642-23702-7_24"},{"key":"185_CR14","doi-asserted-by":"crossref","unstructured":"Sidiroglou-Douskos S, Misailovic S, Hoffmann H, Rinard M. Managing performance vs. accuracy trade-offs with loop perforation. In: Proceedings of the 19th ACM SIGSOFT symposium and the 13th European conference on Foundations of software engineering. 2011.","DOI":"10.1145\/2025113.2025133"},{"key":"185_CR15","doi-asserted-by":"publisher","first-page":"383","DOI":"10.1145\/2786763.2694351","volume":"43","author":"I Goiri","year":"2015","unstructured":"Goiri I, Bianchini R, Nagarakatte S, Nguyen TD. Approxhadoop: bringing approximations to mapreduce frameworks. ACM SIGARCH Comput Arch News. 2015;43:383\u201397.","journal-title":"ACM SIGARCH Comput Arch News"},{"issue":"3","key":"185_CR16","doi-asserted-by":"publisher","first-page":"109","DOI":"10.14778\/3021924.3021928","volume":"10","author":"X Zhang","year":"2016","unstructured":"Zhang X, Wang J, Yin J. Sapprox: enabling efficient and accurate approximations on sub-datasets with distribution-aware online sampling. Proc VLDB Endowment. 2016;10(3):109\u201320.","journal-title":"Proc VLDB Endowment"},{"issue":"2","key":"185_CR17","doi-asserted-by":"publisher","first-page":"166","DOI":"10.1109\/LCA.2016.2636293","volume":"16","author":"H Ahmadvand","year":"2017","unstructured":"Ahmadvand H, Goudarzi M. Using data variety for efficient progressive Big Data processing in warehouse-scale computers. IEEE Comput Arch Lett. 2017;16(2):166\u20139.","journal-title":"IEEE Comput Arch Lett."},{"key":"185_CR18","unstructured":"TPC. \n                    http:\/\/www.tpc.org\/default.asp\n                    \n                  . Accessed 30 Sept 2018."},{"key":"185_CR19","unstructured":"Amazon product data. \n                    http:\/\/jmcauley.ucsd.edu\/data\/amazon\/\n                    \n                  . Accessed 30 Sept 2018."},{"key":"185_CR20","unstructured":"Condie T, Neil C, Peter A, Joseph MH, Khaled E, Russell S. MapReduce online. In: Nsdi. 2010."},{"key":"185_CR21","doi-asserted-by":"crossref","unstructured":"St Amant R, Yazdanbakhsh A, Park J, Thwaites B, Esmaeilzadeh H, Hassibi A, Ceze L, Burger D. General-purpose code acceleration with limited-precision analog computation. In: ISCA \u201814 Proceeding of the 41st annual international symposium on Computer architecture, Minneapolis, Minnesota, USA. 2014.","DOI":"10.1109\/ISCA.2014.6853213"},{"key":"185_CR22","doi-asserted-by":"publisher","first-page":"379","DOI":"10.1007\/s41019-018-0074-4","volume":"3","author":"K Li","year":"2018","unstructured":"Li K, Li G. Approximate query processing: what is new and where to go? Data Sci Eng. 2018;3:379.","journal-title":"Data Sci Eng"},{"key":"185_CR23","doi-asserted-by":"crossref","unstructured":"Acharya S, Gibbons PB, Poosala V, Ramaswamy S. The Aqua approximate query answering system. In: SIGMOD \u201899 Proceedings of the 1999 ACM SIGMOD international conference on management of data, Philadelphia, Pennsylvania, USA. 1999.","DOI":"10.1145\/304182.304581"},{"key":"185_CR24","doi-asserted-by":"crossref","unstructured":"Chaudhuri S, Das G, Narasayya V. A robust, optimization-based approach for approximate answering of aggregate queries. In: SIGMOD \u201801 proceedings of the 2001 ACM SIGMOD international conference on management of data, Santa Barbara, California, USA. 2001.","DOI":"10.1145\/375663.375694"},{"key":"185_CR25","doi-asserted-by":"crossref","unstructured":"Babcock B, Chaudhuri S, Das G. Dynamic sample selection for approximate query processing. In: SIGMOD \u201803 Proceedings of the 2003 ACM SIGMOD international conference on management of data, San Diego, California. 2003.","DOI":"10.1145\/872757.872822"},{"key":"185_CR26","doi-asserted-by":"crossref","unstructured":"Agarwal S, Milner H, Kleiner A, Talwalkar A, Jordan M, Madden S, Mozafari B, Stoica I. Knowing when you\u2019re wrong: building fast and reliable approximate query processing systems. In: SIGMOD \u201814 Proceedings of the 2014 ACM SIGMOD international conference on management of data, Snowbird, Utah, USA. 2014.","DOI":"10.1145\/2588555.2593667"},{"key":"185_CR27","doi-asserted-by":"crossref","unstructured":"Pol A, Jermaine C. Relational confidence bounds are easy with the bootstrap. In: SIGMOD \u201805 Proceedings of the 2005 ACM SIGMOD international conference on management of data, Baltimore, Maryland. 2005.","DOI":"10.1145\/1066157.1066224"},{"key":"185_CR28","doi-asserted-by":"crossref","unstructured":"Zeng K, Gao S, Mozafari B, Zaniolo C. The analytical bootstrap: a new method for fast error estimation in approximate query processing. In: SIGMOD \u201814 Proceedings of the 2014 ACM SIGMOD international conference on management of data, Snowbird, Utah, USA. 2014.","DOI":"10.1145\/2588555.2588579"},{"key":"185_CR29","doi-asserted-by":"crossref","unstructured":"Zeng K, Gao S, Gu J, Mozafari B, Zaniolo C. ABS: a system for scalable approximate queries with accuracy guarantees. In: SIGMOD \u201814 proceedings of the 2014 ACM SIGMOD international conference on management of data, Snowbird, Utah, USA. 2014.","DOI":"10.1145\/2588555.2594532"},{"issue":"13","key":"185_CR30","doi-asserted-by":"publisher","first-page":"1508","DOI":"10.14778\/2733004.2733022","volume":"7","author":"Y Yan","year":"2014","unstructured":"Yan Y, Chen LJ, Zhang Z. Error-bounded sampling for analytics on big sparse data. Proc VLDB Endowment. 2014;7(13):1508\u201319.","journal-title":"Proc VLDB Endowment"},{"issue":"3","key":"185_CR31","doi-asserted-by":"publisher","first-page":"84","DOI":"10.14778\/2850583.2850584","volume":"9","author":"L Wang","year":"2015","unstructured":"Wang L, Christensen R, Li F, Yi K. Spatial online sampling and aggregation. Proc VLDB Endowment. 2015;9(3):84\u201395.","journal-title":"Proc VLDB Endowment"},{"issue":"10","key":"185_CR32","doi-asserted-by":"publisher","first-page":"1028","DOI":"10.14778\/2336664.2336675","volume":"5","author":"N Laptev","year":"2012","unstructured":"Laptev N, Zeng K, Zaniolo C. Early accurate results for advanced analytics on MapReduce. Proc VLDB Endowment. 2012;5(10):1028\u201339.","journal-title":"Proc VLDB Endowment"},{"key":"185_CR33","doi-asserted-by":"crossref","unstructured":"Kandula S, Shanbhag A, Vitorovic A, Olma M, R. Grandl, Chaudhuri S, Ding B. Quickr: lazily approximating complex adhoc queries in bigdata clusters. In: Proceedings of the 2016 international conference on management of data. 2016.","DOI":"10.1145\/2882903.2882940"},{"issue":"1","key":"185_CR34","doi-asserted-by":"publisher","first-page":"3","DOI":"10.1186\/s40537-015-0037-9","volume":"3","author":"J Yang","year":"2016","unstructured":"Yang J, Yecies B. Mining Chinese social media UGC: a big-data framework for analyzing Douban movie reviews. J Big Data. 2016;3(1):3.","journal-title":"J Big Data"},{"key":"185_CR35","doi-asserted-by":"publisher","first-page":"1726","DOI":"10.14778\/2556549.2556557","volume":"6","author":"B Chandramouli","year":"2013","unstructured":"Chandramouli B, Jonathan G, Abdul Q. Scalable progressive analytics on big data in the cloud. Proc VLDB Endowment. 2013;6:1726\u201337.","journal-title":"Proc VLDB Endowment"},{"key":"185_CR36","doi-asserted-by":"crossref","unstructured":"Ramnarayan J, Mozafari B, Wale S, Menon S, Kumar N, Bhanawat H, Chakraborty S, Mahajan Y, Mishra R, Bachhav K. SnappyData: a hybrid transactional analytical store built on spark. In: SIGMOD \u201816 proceedings of the 2016 international conference on management of data, San Francisco, California, USA. 2016.","DOI":"10.1145\/2882903.2899408"},{"key":"185_CR37","doi-asserted-by":"crossref","unstructured":"Zeng K, Agarwal S, Dave A, Armbrust M, Stoica I. G-OLA: generalized on-line aggregation for interactive analysis on Big Data. In: SIGMOD \u201815 proceedings of the 2015 ACM SIGMOD international conference on management of data, Melbourne, Victoria, Australia. 2015.","DOI":"10.1145\/2723372.2735381"},{"issue":"1","key":"185_CR38","doi-asserted-by":"publisher","first-page":"33","DOI":"10.1145\/3093754.3093763","volume":"46","author":"F Li","year":"2017","unstructured":"Li F, Wu B, Yi K, Zhao Z. Wander join and XDB: online aggregation via random walks. ACM SIGMOD Record. 2017;46(1):33\u201340.","journal-title":"ACM SIGMOD Record"},{"key":"185_CR39","doi-asserted-by":"crossref","unstructured":"Zamani AR, AbdelBaky M, Balouek-Thomert D, Rodero I, Parashar M. Supporting data-driven workflows enabled by large scale observatories. In: 2017 IEEE 13th international conference on e-science (e-science), Auckland, New Zealand. 2017.","DOI":"10.1109\/eScience.2017.95"},{"issue":"2","key":"185_CR40","doi-asserted-by":"publisher","first-page":"231","DOI":"10.1109\/TBDATA.2016.2632744","volume":"4","author":"J Wang","year":"2018","unstructured":"Wang J, Zhang X, Yin J, Wang R, Wu H, Han D. Speed up Big Data analytics by unveiling the storage distribution of sub-datasets. IEEE Trans Big Data. 2018;4(2):231\u201344.","journal-title":"IEEE Trans Big Data"},{"key":"185_CR41","doi-asserted-by":"crossref","unstructured":"Grover R, Carey MJ. Extending map-reduce for efficient predicate-based sampling. In: 2012 IEEE 28th international conference on data engineering, Washington, DC, USA. 2012.","DOI":"10.1109\/ICDE.2012.104"},{"key":"185_CR42","unstructured":"Venkataraman S, Panda A, Ananthanarayanan G, Franklin MJ, Stoica I. The power of choice in data-aware cluster scheduling. In: OSDI. 2014."},{"key":"185_CR43","unstructured":"Kwon Y, Balazinska M, Howe B, Rolia J. A study of skew in mapreduce applications. 2011."},{"key":"185_CR44","doi-asserted-by":"crossref","unstructured":"Kwon Y, Balazinska M, Howe B, Rolia J. SkewTune: mitigating skew in mapreduce applications. In: SIGMOD \u201812 proceedings of the 2012 ACM SIGMOD international conference on management of data, Scottsdale, Arizona, USA. 2012.","DOI":"10.1145\/2213836.2213840"},{"issue":"1","key":"185_CR45","doi-asserted-by":"publisher","first-page":"8","DOI":"10.1186\/s40537-014-0008-6","volume":"2","author":"D Singh","year":"2015","unstructured":"Singh D, Reddy CK. A survey on platforms for big data analytics. J Big Data. 2015;2(1):8.","journal-title":"J Big Data."},{"key":"185_CR46","unstructured":"Apache Spark. \n                    http:\/\/spark.apache.org\/\n                    \n                  . Accessed 30 Sept 2018."},{"key":"185_CR47","unstructured":"Resilient Distributed Dataset. \n                    https:\/\/jaceklaskowski.gitbooks.io\/mastering-apache-spark\/spark-rdd.html\n                    \n                  . Accessed 30 Sept 2018."},{"key":"185_CR48","unstructured":"What is rdd. \n                    https:\/\/databricks.com\/glossary\/what-is-rdd\n                    \n                  . Accessed 30 Sept 2018."},{"key":"185_CR49","unstructured":"Apache Spark-RDD. \n                    https:\/\/www.tutorialspoint.com\/apache_spark\/apache_spark_rdd.htm\n                    \n                  . Accessed 30 Sept 2018."},{"key":"185_CR50","volume-title":"Sampling: design and analysis","author":"S Lohr","year":"2009","unstructured":"Lohr S. Sampling: design and analysis. Scarborough: Nelson Education; 2009."},{"key":"185_CR51","volume-title":"Sampling techniques","author":"WG Cochran","year":"2007","unstructured":"Cochran WG. Sampling techniques. New York: Wiley; 2007."},{"key":"185_CR52","doi-asserted-by":"publisher","first-page":"54","DOI":"10.1214\/ss\/1177013815","volume":"1","author":"B Efron","year":"1986","unstructured":"Efron B, Tibshirani R. Bootstrap methods for standard errors, confidence intervals, and other measures of statistical accuracy. Stat Sci. 1986;1:54.","journal-title":"Stat Sci"},{"key":"185_CR53","unstructured":"IMDb data files. \n                    https:\/\/datasets.imdbws.com\/\n                    \n                  . Accessed 30 Sept 2018."},{"key":"185_CR54","unstructured":"Project Gutenberg. \n                    http:\/\/www.gutenberg.org\/\n                    \n                  . Accessed 30 Sept 2018."},{"key":"185_CR55","unstructured":"Quotes-dataset. \n                    https:\/\/www.kaggle.com\/akmittal\/quotes-dataset\n                    \n                  . Accessed 30 Sept 2018."},{"key":"185_CR56","unstructured":"Multi-Stage Sampling. \n                    https:\/\/onlinecourses.science.psu.edu\/stat506\/node\/44\/\n                    \n                  . Accessed 30 Sept 2018."},{"key":"185_CR57","volume-title":"Survey sampling","author":"L Kish","year":"1965","unstructured":"Kish L. Survey sampling. New York: Wiley; 1965."},{"key":"185_CR58","doi-asserted-by":"crossref","unstructured":"Wang L, Zhan J, Luo C, Zhu Y, Yang Q, He Y, Gao W, Jia Z, Shi Y, Zhang S, Zheng C. Bigdatabench: a big data benchmark suite from internet services. In: IEEE 20th international symposium on high performance computer architecture (HPCA). 2014.","DOI":"10.1109\/HPCA.2014.6835958"},{"key":"185_CR59","unstructured":"Recommender Systems Datasets. \n                    https:\/\/cseweb.ucsd.edu\/~jmcauley\/datasets.html\n                    \n                  . Accessed 30 Sept 2018."},{"key":"185_CR60","volume-title":"The art of computer programming: volume 3: sorting and searching","author":"DE Knuth","year":"1973","unstructured":"Knuth DE. The art of computer programming: volume 3: sorting and searching. Boston: Addison-Wesley; 1973."}],"container-title":["Journal of Big Data"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s40537-019-0185-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1186\/s40537-019-0185-4\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s40537-019-0185-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,2,25]],"date-time":"2020-02-25T19:05:43Z","timestamp":1582657543000},"score":1,"resource":{"primary":{"URL":"https:\/\/journalofbigdata.springeropen.com\/articles\/10.1186\/s40537-019-0185-4"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,2,26]]},"references-count":60,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2019,12]]}},"alternative-id":["185"],"URL":"https:\/\/doi.org\/10.1186\/s40537-019-0185-4","relation":{},"ISSN":["2196-1115"],"issn-type":[{"value":"2196-1115","type":"electronic"}],"subject":[],"published":{"date-parts":[[2019,2,26]]},"assertion":[{"value":"26 October 2018","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"14 February 2019","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 February 2019","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"20"}}