Pada zaman yang semakin modern, terdapat banyak teknologi berbasis pembelajaran mesin
yang dapat membantu memecahkan permasalahan sehari-hari. Melalui pembelajaran mesin,
dapat dibangun model yang mengolah data untuk dilatih sehingga dapat memberikan hasil
prediksi. Prediksi yang labelnya kategorikal disebut klasifikasi. Ada beberapa model dasar
yang umum digunakan untuk klasifikasi, misalnya Decision Tree, Support Vector Machine,
Linear Regression, dan sebagainya. Model-model dasar tersebut dapat dikombinasikan dan
membentuk model ensemble. Model ensemble di antaranya terdiri dari jenis algoritma boosting
dan model bagging. Kedua jenis algoritma ini akan dicobakan untuk data profil caleg DPR
Jawa Barat I-XI pada pemilu legislatif tahun 2019. Pada tugas akhir ini, dilakukan
perbandingan algoritma bagging Random Forest dan algoritma boosting Gradient Boosting
Decision Tree. Algoritma Decision Tree juga ikut dibandingkan sebagai baseline.
Sebelum dilakukan perbandingan, dilakukan preprocessing data dan eksplorasi data untuk
mengetahui fitur data yang berpengaruh terhadap label kemenangan untuk seleksi fitur.
Selanjutnya, sebelum dilakukan pelatihan model, karena data yang digunakan imbalanced
dilakukan penanganan dengan Borderline-SMOTE. Hasil pengujian dibandingkan berdasarkan
skor F1.
Dari hasil pengujian, diperoleh bahwa penggunaan fitur hasil seleksi dan sampler Borderline-
SMOTE1 meningkatkan skor F1. Selain itu, diperoleh model terbaik dalam memprediksi
kemenangan dengan data yang digunakan adalah Gradient Boosting Decision Tree dengan
parameter hasil tuning, fitur hasil seleksi, dan sampler Borderline-SMOTE1 dengan skor F1
0.7445.
Hal-hal yang memengaruhi hasil prediksi kemenangan adalah jumlah atribut, penanganan
ketidakseimbangan data, dan data preprocessing. Selain itu, selama struktur datanya sama,
model prediksi dapat digunakan untuk daerah pemilihan lain atau jenis pemilihan legislatif
yang lain. Saran untuk penelitian selanjutnya, sebaiknya digunakan data pemilu dari tahuntahun
sebelumnya dan undersampling sebagai metode penanganan ketidakseimbangan data.