digilib@itb.ac.id +62 812 2508 8800

Pada zaman yang semakin modern, terdapat banyak teknologi berbasis pembelajaran mesin yang dapat membantu memecahkan permasalahan sehari-hari. Melalui pembelajaran mesin, dapat dibangun model yang mengolah data untuk dilatih sehingga dapat memberikan hasil prediksi. Prediksi yang labelnya kategorikal disebut klasifikasi. Ada beberapa model dasar yang umum digunakan untuk klasifikasi, misalnya Decision Tree, Support Vector Machine, Linear Regression, dan sebagainya. Model-model dasar tersebut dapat dikombinasikan dan membentuk model ensemble. Model ensemble di antaranya terdiri dari jenis algoritma boosting dan model bagging. Kedua jenis algoritma ini akan dicobakan untuk data profil caleg DPR Jawa Barat I-XI pada pemilu legislatif tahun 2019. Pada tugas akhir ini, dilakukan perbandingan algoritma bagging Random Forest dan algoritma boosting Gradient Boosting Decision Tree. Algoritma Decision Tree juga ikut dibandingkan sebagai baseline. Sebelum dilakukan perbandingan, dilakukan preprocessing data dan eksplorasi data untuk mengetahui fitur data yang berpengaruh terhadap label kemenangan untuk seleksi fitur. Selanjutnya, sebelum dilakukan pelatihan model, karena data yang digunakan imbalanced dilakukan penanganan dengan Borderline-SMOTE. Hasil pengujian dibandingkan berdasarkan skor F1. Dari hasil pengujian, diperoleh bahwa penggunaan fitur hasil seleksi dan sampler Borderline- SMOTE1 meningkatkan skor F1. Selain itu, diperoleh model terbaik dalam memprediksi kemenangan dengan data yang digunakan adalah Gradient Boosting Decision Tree dengan parameter hasil tuning, fitur hasil seleksi, dan sampler Borderline-SMOTE1 dengan skor F1 0.7445. Hal-hal yang memengaruhi hasil prediksi kemenangan adalah jumlah atribut, penanganan ketidakseimbangan data, dan data preprocessing. Selain itu, selama struktur datanya sama, model prediksi dapat digunakan untuk daerah pemilihan lain atau jenis pemilihan legislatif yang lain. Saran untuk penelitian selanjutnya, sebaiknya digunakan data pemilu dari tahuntahun sebelumnya dan undersampling sebagai metode penanganan ketidakseimbangan data.