Analisis cluster telah dipergunakan secara luas oleh pelaku bisnis untuk melakukan pengelompokan terhadap
customernya. Penggunaan teknik clustering ini dapat membantu untuk mencari kesamaan ciri pada kelompok
yang terbentuk. Permasalahan utama yang muncul dalam clustering adalah menentukan seberapa banyak jumlah
kelompok optimal dan variabel mana saja yang membuat sebuah cluster menjadi semakin kompak untuk suatu
dataset. Banyak penelitian melibatkan algoritma genetik untuk mengatasi permasalahan tersebut, tetapi
penelitian tersebut hanya terbatas kepada penggunaan data numerik saja. Padahal data dalam dunia nyata
sebagian besar adalah data campuran numerik dan kategorikal. Penelitian ini mengusulkan metode gabungan
antara teknik clusterik k-prototype, yang dapat menangani data yang sangat besar dengan tipe data campuran
numerik dan kategorikal, dengan algoritma genetik. Sehingga metode ini diharapkan dapat digunakan untuk
menentukan jumlah cluster yang optimal dari sebuah dataset bertipe data campuran numeric dan kategorikal.
Pengukuran akurasi cluster akan melibatkan Cost Function Criterion dan Categorical Variance Criterion. Hasil
penelitian menunjukkan bahwa akurasi cluster metode yang diusulkan ini lebih baik dibandingkan dengan
metode yang khusus digunakan untuk menangani data numeric saja, seperti misalnya algoritma k-means.
Perpustakaan Digital ITB