{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T15:50:50Z","timestamp":1776873050819,"version":"3.51.2"},"reference-count":49,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2022,9,22]],"date-time":"2022-09-22T00:00:00Z","timestamp":1663804800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2022,9,22]],"date-time":"2022-09-22T00:00:00Z","timestamp":1663804800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Adv Data Anal Classif"],"published-print":{"date-parts":[[2023,9]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>Clustering mixed-type data, that is, observation by variable data that consist of both continuous and categorical variables poses novel challenges. Foremost among these challenges is the choice of the most appropriate clustering method for the data. This paper presents a benchmarking study comparing eight distance-based partitioning methods for mixed-type data in terms of cluster recovery performance. A series of simulations carried out by a full factorial design are presented that examined the effect of a variety of factors on cluster recovery. The amount of cluster overlap, the percentage of categorical variables in the data set, the number of clusters and the number of observations had the largest effects on cluster recovery and in most of the tested scenarios. KAMILA, K-Prototypes and sequential Factor Analysis and K-Means clustering typically performed better than other methods. The study can be a useful reference for practitioners in the choice of the most appropriate method.<\/jats:p>","DOI":"10.1007\/s11634-022-00521-7","type":"journal-article","created":{"date-parts":[[2022,9,22]],"date-time":"2022-09-22T17:08:51Z","timestamp":1663866531000},"page":"701-724","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":19,"title":["Benchmarking distance-based partitioning methods for mixed-type data"],"prefix":"10.1007","volume":"17","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1267-1165","authenticated-orcid":false,"given":"Efthymios","family":"Costa","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ioanna","family":"Papatsouma","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Angelos","family":"Markos","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2022,9,22]]},"reference":[{"issue":"2","key":"521_CR1","doi-asserted-by":"publisher","first-page":"503","DOI":"10.1016\/j.datak.2007.03.016","volume":"63","author":"A Ahmad","year":"2007","unstructured":"Ahmad A, Dey L (2007) A k-mean clustering algorithm for mixed numeric and categorical data. Data & Knowledge Engineering 63(2):503\u2013527","journal-title":"Data & Knowledge Engineering"},{"key":"521_CR2","doi-asserted-by":"crossref","unstructured":"Ahmad A, Khan SS (2019) Survey of state-of-the-art mixed data clustering algorithms. IEEE Access 7:31,883\u201331,902","DOI":"10.1109\/ACCESS.2019.2903568"},{"key":"521_CR3","first-page":"160","volume-title":"Cluster analysis in marketing research","author":"P Arabie","year":"1994","unstructured":"Arabie P (1994) Cluster analysis in marketing research. Blackwell, Oxford, pp 160\u2013189"},{"issue":"1","key":"521_CR4","doi-asserted-by":"publisher","first-page":"5","DOI":"10.1007\/s11634-014-0195-1","volume":"10","author":"V Audigier","year":"2016","unstructured":"Audigier V, Husson F, Josse J (2016) A principal component method to impute missing values for mixed data. Adv Data Anal Classif 10(1):5\u201326","journal-title":"Adv Data Anal Classif"},{"key":"521_CR5","doi-asserted-by":"publisher","first-page":"73","DOI":"10.1007\/978-3-319-55723-6_6","volume-title":"Data Science","author":"AL Boulesteix","year":"2017","unstructured":"Boulesteix AL, Hatz M (2017) Benchmarking for clustering methods based on real data: A statistical view. In: Palumbo F, Montanari A, Vichi M (eds) Data Science. Springer International Publishing, Cham, pp 73\u201382"},{"issue":"e61","key":"521_CR6","first-page":"562","volume":"8","author":"AL Boulesteix","year":"2013","unstructured":"Boulesteix AL, Lauer S, Eugster MJ (2013) A plea for neutral comparison studies in computational sciences. PLoS ONE 8(e61):562","journal-title":"PLoS ONE"},{"key":"521_CR7","doi-asserted-by":"crossref","unstructured":"De\u00a0Soete G, Carroll JD (1994) K-means clustering in a low-dimensional Euclidean space, Springer, 212\u2013219","DOI":"10.1007\/978-3-642-51175-2_24"},{"issue":"1","key":"521_CR8","doi-asserted-by":"publisher","first-page":"63","DOI":"10.1177\/0047287508318910","volume":"47","author":"S Dolnicar","year":"2008","unstructured":"Dolnicar S, Gr\u00fcn B (2008) Challenging \u201cfactor-cluster segmentation\u2019\u2019. J Travel Res 47(1):63\u201371","journal-title":"J Travel Res"},{"issue":"9","key":"521_CR9","doi-asserted-by":"publisher","first-page":"1925","DOI":"10.1080\/03610910903168603","volume":"38","author":"L Ferreira","year":"2009","unstructured":"Ferreira L, Hitchcock DB (2009) A comparison of hierarchical methods for clustering functional data. Communications in Statistics - Simulation and Computation 38(9):1925\u20131949","journal-title":"Communications in Statistics - Simulation and Computation"},{"issue":"3","key":"521_CR10","doi-asserted-by":"publisher","first-page":"419","DOI":"10.1007\/s10994-016-5575-7","volume":"105","author":"A Foss","year":"2016","unstructured":"Foss A, Markatou M, Ray B et al (2016) A semiparametric method for clustering mixed data. Mach Learn 105(3):419\u2013458","journal-title":"Mach Learn"},{"key":"521_CR11","doi-asserted-by":"publisher","first-page":"1","DOI":"10.18637\/jss.v083.i13","volume":"83","author":"AH Foss","year":"2018","unstructured":"Foss AH, Markatou M (2018) kamila: Clustering mixed-type data in R and Hadoop. J Stat Softw 83:1\u201344","journal-title":"J Stat Softw"},{"issue":"1","key":"521_CR12","doi-asserted-by":"publisher","first-page":"80","DOI":"10.1111\/insr.12274","volume":"87","author":"AH Foss","year":"2019","unstructured":"Foss AH, Markatou M, Ray B (2019) Distance metrics and clustering methods for mixed-type data. Int Stat Rev 87(1):80\u2013109","journal-title":"Int Stat Rev"},{"key":"521_CR13","doi-asserted-by":"publisher","first-page":"857","DOI":"10.2307\/2528823","volume":"27","author":"JC Gower","year":"1971","unstructured":"Gower JC (1971) A general coefficient of similarity and some of its properties. Biometrics 27:857\u2013871","journal-title":"Biometrics"},{"key":"521_CR14","unstructured":"Hennig C (2020) Package \u2018fpc\u2019. URL https:\/\/cran.r-project.org\/web\/packages\/fpc\/fpc.pdf"},{"key":"521_CR15","doi-asserted-by":"publisher","first-page":"201","DOI":"10.1007\/s11634-021-00478-z","volume":"16","author":"C Hennig","year":"2022","unstructured":"Hennig C (2022) An empirical comparison and characterisation of nine popular clustering methods. Adv Data Anal Classif 16:201\u2013229","journal-title":"Adv Data Anal Classif"},{"issue":"3","key":"521_CR16","first-page":"309","volume":"62","author":"C Hennig","year":"2013","unstructured":"Hennig C, Liao TF (2013) How to find an appropriate clustering for mixed-type variables with application to socio-economic stratification. J Roy Stat Soc: Ser C (Appl Stat) 62(3):309\u2013369","journal-title":"J Roy Stat Soc: Ser C (Appl Stat)"},{"key":"521_CR17","unstructured":"Huang Z (1997) Clustering large data sets with mixed numeric and categorical values. In: Proceedings of the 1st Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), Citeseer, 21\u201334"},{"issue":"2","key":"521_CR18","doi-asserted-by":"publisher","first-page":"193","DOI":"10.1007\/BF01908075","volume":"2","author":"L Hubert","year":"1985","unstructured":"Hubert L, Arabie P (1985) Comparing partitions. J Classif 2(2):193\u2013218","journal-title":"J Classif"},{"issue":"4","key":"521_CR19","first-page":"352","volume":"1","author":"L Hunt","year":"2011","unstructured":"Hunt L, Jorgensen M (2011) Clustering mixed data. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 1(4):352\u2013361","journal-title":"Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery"},{"issue":"100","key":"521_CR20","first-page":"001","volume":"1","author":"A Javed","year":"2020","unstructured":"Javed A, Lee BS, Rizzo DM (2020) A benchmark study on time series clustering. Machine Learning with Applications 1(100):001","journal-title":"Machine Learning with Applications"},{"key":"521_CR21","doi-asserted-by":"publisher","first-page":"83","DOI":"10.1007\/978-3-030-60104-1_10","volume-title":"Data Analysis and Rationality in a Complex World","author":"J Jimeno","year":"2021","unstructured":"Jimeno J, Roy M, Tortora C (2021) Clustering mixed-type data: A benchmark study on KAMILA and K-Prototypes. In: Chadjipadelis T, Lausen B, Markos A et al (eds) Data Analysis and Rationality in a Complex World. Springer International Publishing, Cham, pp 83\u201391"},{"key":"521_CR22","first-page":"68","volume":"2","author":"L Kaufman","year":"1990","unstructured":"Kaufman L, Rousseeuw PJ (1990) Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, chap 2:68\u2013125","journal-title":"John Wiley & Sons, chap"},{"issue":"2","key":"521_CR23","doi-asserted-by":"publisher","first-page":"197","DOI":"10.1007\/BF02294458","volume":"56","author":"HA Kiers","year":"1991","unstructured":"Kiers HA (1991) Simple structure in component analysis techniques for mixtures of qualitative and quantitative variables. Psychometrika 56(2):197\u2013212","journal-title":"Psychometrika"},{"key":"521_CR24","unstructured":"Maechler M, Rousseeuw P, Struyf A et\u00a0al (2021) cluster: Cluster Analysis Basics and Extensions. URL https:\/\/CRAN.R-project.org\/package=cluster, R package version 2.1.2)"},{"issue":"2","key":"521_CR25","doi-asserted-by":"publisher","first-page":"354","DOI":"10.1198\/jcgs.2009.08054","volume":"19","author":"R Maitra","year":"2010","unstructured":"Maitra R, Melnykov V (2010) Simulating data to study performance of finite mixture modeling and clustering algorithms. J Comput Graph Stat 19(2):354\u2013376","journal-title":"J Comput Graph Stat"},{"key":"521_CR26","doi-asserted-by":"publisher","first-page":"1","DOI":"10.18637\/jss.v091.i10","volume":"91","author":"A Markos","year":"2019","unstructured":"Markos A, Iodice D\u2019Enza A, van de Velden M (2019) Beyond tandem analysis: Joint dimension reduction and clustering in R. J Stat Softw 91:1\u201324","journal-title":"J Stat Softw"},{"issue":"3","key":"521_CR27","doi-asserted-by":"publisher","first-page":"228","DOI":"10.1504\/IJDATS.2020.108043","volume":"12","author":"A Markos","year":"2020","unstructured":"Markos A, Moschidis O, Chadjipantelis T (2020) Sequential dimension reduction and clustering of mixed-type data. International Journal of Data Analysis Techniques and Strategies 12(3):228\u2013246","journal-title":"International Journal of Data Analysis Techniques and Strategies"},{"key":"521_CR28","doi-asserted-by":"publisher","first-page":"9","DOI":"10.1023\/A:1007648401407","volume":"42","author":"M Meil\u0103","year":"2001","unstructured":"Meil\u0103 M, Heckerman D (2001) An experimental comparison of model-based clustering methods. Mach Learn 42:9\u201329","journal-title":"Mach Learn"},{"key":"521_CR29","doi-asserted-by":"publisher","first-page":"80","DOI":"10.1214\/09-SS053","volume":"4","author":"V Melnykov","year":"2010","unstructured":"Melnykov V, Maitra R (2010) Finite mixture models and model-based clustering. Statistics Surveys 4:80\u2013116","journal-title":"Statistics Surveys"},{"issue":"12","key":"521_CR30","doi-asserted-by":"publisher","first-page":"1","DOI":"10.18637\/jss.v051.i12","volume":"51","author":"V Melnykov","year":"2012","unstructured":"Melnykov V, Chen WC, Maitra R (2012) MixSim: An R package for simulating data to study performance of clustering algorithms. J Stat Softw 51(12):1\u201325","journal-title":"J Stat Softw"},{"key":"521_CR31","doi-asserted-by":"publisher","first-page":"325","DOI":"10.1007\/BF02293907","volume":"45","author":"GW Milligan","year":"1980","unstructured":"Milligan GW (1980) An examination of the effect of six types of error perturbation on fifteen clustering algorithms. Psychometrika 45:325\u2013342","journal-title":"Psychometrika"},{"issue":"3","key":"521_CR32","doi-asserted-by":"publisher","first-page":"217","DOI":"10.1023\/A:1024016609528","volume":"52","author":"DS Modha","year":"2003","unstructured":"Modha DS, Spangler WS (2003) Feature weighting in k-means clustering. Mach Learn 52(3):217\u2013237","journal-title":"Mach Learn"},{"key":"521_CR33","unstructured":"Murtagh F (2015) A Brief History of Cluster Analysis. In: Hennig C, Meila M, Murtagh F et\u00a0al (eds) Handbook of Cluster Analysis. Chapman & Hall\/CRC, 21\u201333"},{"key":"521_CR34","first-page":"67","volume":"3","author":"J Pag\u00e8s","year":"2014","unstructured":"Pag\u00e8s J (2014) Multiple Factor Analysis By Example Using R. Chapman and Hall\/CRC, chap 3:67\u201378","journal-title":"Chapman and Hall\/CRC, chap"},{"issue":"1","key":"521_CR35","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1038\/s41598-021-83340-8","volume":"11","author":"G Preud\u2019Homme","year":"2021","unstructured":"Preud\u2019Homme G, Duarte K, Dalleau K et al (2021) Head-to-head comparison of clustering methods for heterogeneous data: a simulation-driven benchmark. Sci Rep 11(1):1\u201314","journal-title":"Sci Rep"},{"issue":"8","key":"521_CR36","doi-asserted-by":"publisher","first-page":"2379","DOI":"10.1021\/acs.jproteome.5b01029","volume":"15","author":"E Saccenti","year":"2016","unstructured":"Saccenti E, Timmerman ME (2016) Approaches to sample size determination for multivariate data: Applications to PCA and PLS-DA of omics data. J Proteome Res 15(8):2379\u20132393","journal-title":"J Proteome Res"},{"key":"521_CR37","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1186\/1029-242X-2013-203","volume":"2013","author":"S Sara\u00e7li","year":"2013","unstructured":"Sara\u00e7li S, Do\u011fan N, Do\u011fan \u0130smet (2013) Comparison of hierarchical cluster analysis methods by cophenetic correlation. Journal of Inequalities And Applications 2013:1\u20138","journal-title":"Journal of Inequalities And Applications"},{"issue":"4","key":"521_CR38","doi-asserted-by":"publisher","first-page":"466","DOI":"10.1080\/00273171.2016.1160359","volume":"51","author":"EM Shireman","year":"2016","unstructured":"Shireman EM, Steinley D, Brusco MJ (2016) Local optima in mixture modeling. Multivar Behav Res 51(4):466\u2013481","journal-title":"Multivar Behav Res"},{"issue":"3","key":"521_CR39","doi-asserted-by":"publisher","first-page":"386","DOI":"10.1037\/1082-989X.9.3.386","volume":"9","author":"D Steinley","year":"2004","unstructured":"Steinley D (2004) Properties of the Hubert-Arabie Adjusted Rand Index. Psychol Methods 9(3):386\u2013396","journal-title":"Psychol Methods"},{"issue":"2","key":"521_CR40","doi-asserted-by":"publisher","first-page":"178","DOI":"10.1037\/1082-989X.11.2.178","volume":"11","author":"D Steinley","year":"2006","unstructured":"Steinley D (2006) Profiling local optima in k-means clustering: developing a diagnostic technique. Psychol Methods 11(2):178\u2013192","journal-title":"Psychol Methods"},{"issue":"2","key":"521_CR41","doi-asserted-by":"publisher","first-page":"200","DOI":"10.32614\/RJ-2018-048","volume":"10","author":"G Szepannek","year":"2018","unstructured":"Szepannek G (2018) clustMixType: User-Friendly Clustering of Mixed-Type Data in R. The R Journal 10(2):200\u2013208","journal-title":"The R Journal"},{"key":"521_CR42","doi-asserted-by":"publisher","first-page":"353","DOI":"10.1007\/s41237-018-0075-7","volume":"46","author":"H Van der Hoef","year":"2019","unstructured":"Van der Hoef H, Warrens MJ (2019) Understanding information theoretic measures for comparing clusterings. Behaviormetrika 46:353\u2013370","journal-title":"Behaviormetrika"},{"key":"521_CR43","unstructured":"Van\u00a0Mechelen I, Boulesteix AL, Dang R et\u00a0al (2018) Benchmarking in cluster analysis: A white paper arxiv:1809.10496v2"},{"issue":"1","key":"521_CR44","doi-asserted-by":"publisher","first-page":"158","DOI":"10.1007\/s11336-016-9514-0","volume":"82","author":"M van de Velden","year":"2017","unstructured":"van de Velden M, Iodice D\u2019Enza A, Palumbo F (2017) Cluster correspondence analysis. Psychometrika 82(1):158\u2013185","journal-title":"Psychometrika"},{"issue":"3","key":"521_CR45","doi-asserted-by":"crossref","first-page":"e1456","DOI":"10.1002\/wics.1456","volume":"11","author":"M van de Velden","year":"2019","unstructured":"van de Velden M, Iodice D\u2019Enza A, Markos A (2019) Distance-based clustering of mixed data. Wiley Interdisciplinary Reviews: Computational Statistics 11(3):e1456","journal-title":"Wiley Interdisciplinary Reviews: Computational Statistics"},{"issue":"1","key":"521_CR46","doi-asserted-by":"publisher","first-page":"49","DOI":"10.1016\/S0167-9473(00)00064-5","volume":"37","author":"M Vichi","year":"2001","unstructured":"Vichi M, Kiers HA (2001) Factorial k-means analysis for two-way data. Computational Statistics & Data Analysis 37(1):49\u201364","journal-title":"Computational Statistics & Data Analysis"},{"issue":"2","key":"521_CR47","doi-asserted-by":"publisher","first-page":"243","DOI":"10.1007\/s41237-018-0068-6","volume":"46","author":"M Vichi","year":"2019","unstructured":"Vichi M, Vicari D, Kiers HA (2019) Clustering and dimension reduction for mixed variables. Behaviormetrika 46(2):243\u2013269","journal-title":"Behaviormetrika"},{"key":"521_CR48","first-page":"2837","volume":"11","author":"NX Vinh","year":"2010","unstructured":"Vinh NX, Epps J, Bailey J (2010) Information theoretic measures for clusterings comparison: Variants, properties, normalization and correction for chance. The Journal of Machine Learning Research 11:2837\u20132854","journal-title":"The Journal of Machine Learning Research"},{"issue":"1","key":"521_CR49","doi-asserted-by":"publisher","first-page":"115","DOI":"10.2333\/bhmk.41.115","volume":"41","author":"M Yamamoto","year":"2014","unstructured":"Yamamoto M, Hwang H (2014) A general formulation of cluster analysis with dimension reduction and subspace separation. Behaviormetrika 41(1):115\u2013129","journal-title":"Behaviormetrika"}],"container-title":["Advances in Data Analysis and Classification"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11634-022-00521-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11634-022-00521-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11634-022-00521-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,8,7]],"date-time":"2023-08-07T17:26:30Z","timestamp":1691429190000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11634-022-00521-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,9,22]]},"references-count":49,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2023,9]]}},"alternative-id":["521"],"URL":"https:\/\/doi.org\/10.1007\/s11634-022-00521-7","relation":{},"ISSN":["1862-5347","1862-5355"],"issn-type":[{"value":"1862-5347","type":"print"},{"value":"1862-5355","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,9,22]]},"assertion":[{"value":"11 April 2022","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"23 August 2022","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"30 August 2022","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 September 2022","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}