Data yang tidak seimbang biasanya mengacu pada suatu kondisi di mana beberapa
sampel data dalam masalah tertentu tidak terdistribusi secara merata, sehingga
menyebabkan kurang terwakilinya satu atau lebih kelas dalam kumpulan data.
Kelas-kelas yang kurang terwakili ini disebut sebagai kelas minoritas, sedangkan
kelas lainnya disebut kelas mayoritas. Distribusi data yang tidak merata
menyebabkan hasil akurasi prediktif dari machine learning tidak tepat dalam
memprediksi kelas minoritas sehingga menimbulkan biaya kesalahan yang juga
bervariasi. Sementara banyak aplikasi praktis menggunakan data yang sangat tidak
seimbang dimana variabel target termasuk dalam kelas minoritas, sehingga
mengklasifikasikan dengan benar contoh kelas minoritas seringkali lebih penting
daripada mengklasifikasikan dengan benar contoh kelas mayoritas.
Saat ini, Synthetic Minority Oversampling Technique (SMOTE) sudah menjadi
standar dalam kerangka belajar dari data yang tidak seimbang. SMOTE adalah
teknik oversampling yang membangkitkan data sintetis berdasarkan kNN (k
Nearest Neighbors) dari setiap data minor. SMOTE mensintesis data minoritas baru
yang tidak sama dengan data asli, sehingga mengurangi dampak overfitting pada
kelas minoritas. Namun, SMOTE juga memiliki beberapa keterbatasan. SMOTE
dapat menghasilkan noise, sehingga memungkinkan contoh-contoh data sintetik
kelas minoritas yang dihasilkan adalah termasuk dalam kelas mayoritas. Di sisi lain,
penentuan kNN pada SMOTE masih menggunakan jarak euclidean yang menjadi
kurang efektif dengan bertambahnya dimensi data. Keterbatasan-keterbatasan dari
SMOTE ini tentunya mempersulit tugas pembelajaran dan berpengaruh dalam
kinerja akurasi prediktif dari algoritma pembelajaran.
Oleh karena itu, penelitian ini bertujuan untuk memperbaiki SMOTE dalam rangka
meningkatkan kinerja (akurasi prediktif) machine learning dalam penanganan data
tidak seimbang. Pendekatan yang diusulkan adalah untuk menangani permasalahan
klasifikasi biner yang tidak seimbang (binary imbalanced classification). Perbaikan
dilakukan dengan mengidentifikasi noise dari data minoritas sintetik yang
dihasilkan SMOTE dengan menggunakan Local Outlier Factor (LOF). Metode
yang diusulkan adalah SMOTE-LOF, dimana percobaan dilakukan dengan
menggunakan dataset yang tidak seimbang dengan hasil kinerja akurasi prediktif
ii
yang dibandingkan dengan kinerja SMOTE. Hasil penelitian menunjukkan bahwa
SMOTE-LOF menghasilkan akurasi dan f-measure yang lebih baik daripada
SMOTE.
Selain itu, penelitian ini juga menganalisis perubahan metrik jarak dalam
menentukan kNN pada SMOTE dari jarak euclidean ke jarak manhattan dan jarak
cosine, kemudian menganalisis pengaruh interaksi metrik jarak dengan imbalance
ratio (IR) dan jumlah atribut terhadap kinerja akurasi prediksi SMOTE dalam
penanganan data tidak seimbang. Eksperimen dilakukan dengan menggunakan
dataset tidak seimbang yang disertai dengan perbandingan hasil kinerja akurasi
prediksi yang diperoleh dari setiap dataset untuk masing-masing distance metric. Hasil penelitian menunjukkan bahwa interaksi ketiga metrik jarak dengan rasio
ketidakseimbangan dan jumlah atribut tidak berpengaruh signifikan terhadap
peningkatan kinerja akurasi prediksi. Namun, kinerja yang lebih baik ditemukan
untuk SMOTE saat menggunakan jarak Manhattan, dibandingkan dengan jarak
euclidean dan jarak cosine.
Pendekatan yang diusulkan menunjukkan telah mencapai tujuan penelitian, yaitu
dapat memperbaiki SMOTE. Dengan mengidentifikasi noise pada SMOTE
kemudian menghapusnya, SMOTE-LOF memiliki accuracy 2 4% lebih baik dan f-
measure 1 6% lebih baik daripada SMOTE. Dengan mengubah metrik jarak pada
SMOTE yang semula menggunakan euclidean distance, pengubahan metrik jarak
pada SMOTE dengan menggunakan manhattan distance memiliki kinerja F1 Score
lebih baik 6,93% dan AUC lebih baik 3%.