Data kategorikal adalah data yang tidak dapat dihitung secara kuantitatif sehingga tidak dapat
menerima operasi matematika seperti penjumlahan dan perkalian. Untuk mengelompokkannya,
perlu dilakukan penyesuaian terhadap algoritme analisis kluster untuk mengelompokkan data
kategorikal. Sebagai studi kasus dalam penanganan data kategorikal serupa, akan digunakan data
profil anggota legislatif terpilih pada periode 2019-2024. Untuk menentukan metode yang paling
baik dari segi kemurnian dan waktu eksekusi dalam menangani data kategorikal, perlu dilakukan
analisis terhadap kinerja algoritme clustering.
Pada tugas akhir ini, dilakukan analisis terhadap algoritme clustering dalam menangani data
kategorikal dengan karakteristik serupa dengan profil anggota legislatif terpilih. Dataset ini dipilih
disebabkan sebagian besar profil yang bersifat kategorikal. Selanjutnya akan dilakukan
pembelajaran menggunakan algoritme K-Modes, K-Means, dan ROCK yang setelahnya akan
dianalisis hasil evaluasinya.
Eksperimen dilakukan dengan tahapan ekstraksi data, pembersihan data, dan pemilihan fitur
menggunakan uji chi-squared. Setelah fitur telah dipilih, dilakukan pembelajaran yang dibagi ke
dalam empat eksperimen dengan fitur berbeda yaitu seluruh fitur, sesuai FORMAPPI, sesuai EDA,
dan dilakukan dalam iterasi. Lalu untuk setiap eksperimen akan dilakukan sepuluh iterasi untuk
dibandingkan.
Setelah dilakukan eksperimen, ditunjukkan bahwa proses EDA meningkatkan nilai silhouette
coefficient dan waktu eksekusi. Lalu untuk tingkat robust ditunjukkan baik untuk ketiga algoritme
dengan nilai kemurnian dan waktu eksekusi yang tidak berubah signifikan. Kemudian dari ketiga
algoritme, yang paling baik dalam menangani data kategorikal dengan karakteristik profil anggota
legislatif terpilih dari segi kemurnian dan waktu eksekusi adalah K-Means, ditunjukkan dengan
nilai silhouette coefficient terbaik sebesar 0.277 dengan waktu eksekusi terbaik dengan rata-rata
selama 107 milidetik.