digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Naufal Aditya Dirgandhavi
PUBLIC Alice Diniarti

Data kategorikal adalah data yang tidak dapat dihitung secara kuantitatif sehingga tidak dapat menerima operasi matematika seperti penjumlahan dan perkalian. Untuk mengelompokkannya, perlu dilakukan penyesuaian terhadap algoritme analisis kluster untuk mengelompokkan data kategorikal. Sebagai studi kasus dalam penanganan data kategorikal serupa, akan digunakan data profil anggota legislatif terpilih pada periode 2019-2024. Untuk menentukan metode yang paling baik dari segi kemurnian dan waktu eksekusi dalam menangani data kategorikal, perlu dilakukan analisis terhadap kinerja algoritme clustering. Pada tugas akhir ini, dilakukan analisis terhadap algoritme clustering dalam menangani data kategorikal dengan karakteristik serupa dengan profil anggota legislatif terpilih. Dataset ini dipilih disebabkan sebagian besar profil yang bersifat kategorikal. Selanjutnya akan dilakukan pembelajaran menggunakan algoritme K-Modes, K-Means, dan ROCK yang setelahnya akan dianalisis hasil evaluasinya. Eksperimen dilakukan dengan tahapan ekstraksi data, pembersihan data, dan pemilihan fitur menggunakan uji chi-squared. Setelah fitur telah dipilih, dilakukan pembelajaran yang dibagi ke dalam empat eksperimen dengan fitur berbeda yaitu seluruh fitur, sesuai FORMAPPI, sesuai EDA, dan dilakukan dalam iterasi. Lalu untuk setiap eksperimen akan dilakukan sepuluh iterasi untuk dibandingkan. Setelah dilakukan eksperimen, ditunjukkan bahwa proses EDA meningkatkan nilai silhouette coefficient dan waktu eksekusi. Lalu untuk tingkat robust ditunjukkan baik untuk ketiga algoritme dengan nilai kemurnian dan waktu eksekusi yang tidak berubah signifikan. Kemudian dari ketiga algoritme, yang paling baik dalam menangani data kategorikal dengan karakteristik profil anggota legislatif terpilih dari segi kemurnian dan waktu eksekusi adalah K-Means, ditunjukkan dengan nilai silhouette coefficient terbaik sebesar 0.277 dengan waktu eksekusi terbaik dengan rata-rata selama 107 milidetik.