{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T10:18:46Z","timestamp":1777630726968,"version":"3.51.4"},"reference-count":31,"publisher":"Association for Computing Machinery (ACM)","issue":"14","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Proc. VLDB Endow."],"published-print":{"date-parts":[[2016,10]]},"abstract":"<jats:p>\n            The Dataset Scaling Problem (DSP) defined in previous work states:\n            <jats:italic>Given an empirical set of relational tables D and a scale factor s, generate a database state D that is similar to D but s times its size<\/jats:italic>\n            . A DSP solution is useful for application development (\n            <jats:italic>s<\/jats:italic>\n            &lt; 1), scalability testing (\n            <jats:italic>s<\/jats:italic>\n            &gt; 1) and anonymization (\n            <jats:italic>s<\/jats:italic>\n            = 1). Current solutions assume all table sizes scale by the same ratio\n            <jats:italic>s<\/jats:italic>\n            .\n          <\/jats:p>\n          <jats:p>\n            However, a real database tends to have tables that grow at different rates. This paper therefore considers\n            <jats:italic>non-uniform scaling<\/jats:italic>\n            (nuDSP), a DSP generalization where, instead of a single scale factor\n            <jats:italic>s<\/jats:italic>\n            , tables can scale by different factors.\n          <\/jats:p>\n          <jats:p>\n            D\n            <jats:sc>scaler<\/jats:sc>\n            is the first solution for nuDSP. It follows previous work in achieving similarity by reproducing correlation among the primary and foreign keys. However, it introduces the concept of a\n            <jats:italic>correlation database<\/jats:italic>\n            that captures fine-grained, per-tuple correlation.\n          <\/jats:p>\n          <jats:p>\n            Experiments with well-known real and synthetic datasets D show that D\n            <jats:sc>scaler<\/jats:sc>\n            produces D with greater similarity to D than state-of-the-art techniques. Here, similarity is measured by number of tuples, frequency distribution of foreign key references, and multi-join aggregate queries.\n          <\/jats:p>","DOI":"10.14778\/3007328.3007333","type":"journal-article","created":{"date-parts":[[2016,11,1]],"date-time":"2016-11-01T13:47:47Z","timestamp":1478008067000},"page":"1671-1682","source":"Crossref","is-referenced-by-count":10,"title":["Dscaler"],"prefix":"10.14778","volume":"9","author":[{"given":"J. W.","family":"Zhang","sequence":"first","affiliation":[{"name":"National University of Singapore"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Y. C.","family":"Tay","sequence":"additional","affiliation":[{"name":"National University of Singapore"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2016,10]]},"reference":[{"key":"e_1_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1145\/304182.304207"},{"key":"e_1_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.14778\/2367502.2367533"},{"key":"e_1_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1145\/1989323.1989395"},{"key":"e_1_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICDE.2007.367896"},{"key":"e_1_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1145\/1247480.1247520"},{"key":"e_1_2_1_6_1","first-page":"1097","volume-title":"VLDB","author":"Bruno N.","year":"2005","unstructured":"N. Bruno and S. Chaudhuri . Flexible database generators . In VLDB , pages 1097 -- 1107 , 2005 . N. Bruno and S. Chaudhuri. Flexible database generators. In VLDB, pages 1097--1107, 2005."},{"key":"e_1_2_1_7_1","first-page":"95","volume-title":"Data Science, LNCS 9147","author":"Buda T.","year":"2015","unstructured":"T. Buda , T. Cerqueus , ReX: Extrapolating relational data in a representative way . In Data Science, LNCS 9147 , pages 95 -- 107 . 2015 . T. Buda, T. Cerqueus, et al. ReX: Extrapolating relational data in a representative way. In Data Science, LNCS 9147, pages 95--107. 2015."},{"key":"e_1_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1145\/2661829.2661845"},{"key":"e_1_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1145\/1007568.1007602"},{"key":"e_1_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1145\/956750.956764"},{"key":"e_1_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1145\/1989323.1989340"},{"key":"e_1_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1145\/2700836"},{"key":"e_1_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-69497-7_4"},{"key":"e_1_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1145\/191839.191886"},{"key":"e_1_2_1_15_1","volume-title":"Proc. AMW","author":"Gupta V.","year":"2011","unstructured":"V. Gupta , G. Miklau , and N. Polyzotis . Private database synthesis for outsourced system evaluation . In Proc. AMW , May 2011 . V. Gupta, G. Miklau, and N. Polyzotis. Private database synthesis for outsourced system evaluation. In Proc. AMW, May 2011."},{"key":"e_1_2_1_16_1","first-page":"1243","volume-title":"VLDB","author":"Houkj\u00e6r K.","year":"2006","unstructured":"K. Houkj\u00e6r , K. Torp , and R. Wind . Simple and realistic data generation . In VLDB , pages 1243 -- 1246 , 2006 . K. Houkj\u00e6r, K. Torp, and R. Wind. Simple and realistic data generation. In VLDB, pages 1243--1246, 2006."},{"key":"e_1_2_1_17_1","first-page":"367","volume-title":"KDD","volume":"96","author":"John G. H.","year":"1996","unstructured":"G. H. John and P. Langley . Static versus dynamic sampling for data mining . In KDD , volume 96 , pages 367 -- 370 , 1996 . G. H. John and P. Langley. Static versus dynamic sampling for data mining. In KDD, volume 96, pages 367--370, 1996."},{"key":"e_1_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1145\/1807167.1807177"},{"key":"e_1_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.14778\/1920841.1920950"},{"key":"e_1_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICDE.2014.6816689"},{"key":"e_1_2_1_21_1","doi-asserted-by":"publisher","DOI":"10.1145\/1557019.1557090"},{"key":"e_1_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/SP.2008.33"},{"key":"e_1_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1145\/335191.335384"},{"key":"e_1_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1145\/312129.312188"},{"key":"e_1_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1145\/2723372.2746479"},{"key":"e_1_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1145\/2723372.2735378"},{"key":"e_1_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/974043.974060"},{"key":"e_1_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.14778\/3402755.3402798"},{"key":"e_1_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.is.2013.07.004"},{"key":"e_1_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2006.94"},{"key":"e_1_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.14778\/3007328.3007333"}],"container-title":["Proceedings of the VLDB Endowment"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.14778\/3007328.3007333","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,12,28]],"date-time":"2022-12-28T11:08:00Z","timestamp":1672225680000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.14778\/3007328.3007333"}},"subtitle":["synthetically scaling a given relational database"],"short-title":[],"issued":{"date-parts":[[2016,10]]},"references-count":31,"journal-issue":{"issue":"14","published-print":{"date-parts":[[2016,10]]}},"alternative-id":["10.14778\/3007328.3007333"],"URL":"https:\/\/doi.org\/10.14778\/3007328.3007333","relation":{},"ISSN":["2150-8097"],"issn-type":[{"value":"2150-8097","type":"print"}],"subject":[],"published":{"date-parts":[[2016,10]]}}}