digilib@itb.ac.id +62 812 2508 8800

33218001 Asniar.pdf
PUBLIC Dessy Rondang Monaomi

Data yang tidak seimbang biasanya mengacu pada suatu kondisi di mana beberapa sampel data dalam masalah tertentu tidak terdistribusi secara merata, sehingga menyebabkan kurang terwakilinya satu atau lebih kelas dalam kumpulan data. Kelas-kelas yang kurang terwakili ini disebut sebagai kelas minoritas, sedangkan kelas lainnya disebut kelas mayoritas. Distribusi data yang tidak merata menyebabkan hasil akurasi prediktif dari machine learning tidak tepat dalam memprediksi kelas minoritas sehingga menimbulkan biaya kesalahan yang juga bervariasi. Sementara banyak aplikasi praktis menggunakan data yang sangat tidak seimbang dimana variabel target termasuk dalam kelas minoritas, sehingga mengklasifikasikan dengan benar contoh kelas minoritas seringkali lebih penting daripada mengklasifikasikan dengan benar contoh kelas mayoritas. Saat ini, Synthetic Minority Oversampling Technique (SMOTE) sudah menjadi standar dalam kerangka belajar dari data yang tidak seimbang. SMOTE adalah teknik oversampling yang membangkitkan data sintetis berdasarkan kNN (k Nearest Neighbors) dari setiap data minor. SMOTE mensintesis data minoritas baru yang tidak sama dengan data asli, sehingga mengurangi dampak overfitting pada kelas minoritas. Namun, SMOTE juga memiliki beberapa keterbatasan. SMOTE dapat menghasilkan noise, sehingga memungkinkan contoh-contoh data sintetik kelas minoritas yang dihasilkan adalah termasuk dalam kelas mayoritas. Di sisi lain, penentuan kNN pada SMOTE masih menggunakan jarak euclidean yang menjadi kurang efektif dengan bertambahnya dimensi data. Keterbatasan-keterbatasan dari SMOTE ini tentunya mempersulit tugas pembelajaran dan berpengaruh dalam kinerja akurasi prediktif dari algoritma pembelajaran. Oleh karena itu, penelitian ini bertujuan untuk memperbaiki SMOTE dalam rangka meningkatkan kinerja (akurasi prediktif) machine learning dalam penanganan data tidak seimbang. Pendekatan yang diusulkan adalah untuk menangani permasalahan klasifikasi biner yang tidak seimbang (binary imbalanced classification). Perbaikan dilakukan dengan mengidentifikasi noise dari data minoritas sintetik yang dihasilkan SMOTE dengan menggunakan Local Outlier Factor (LOF). Metode yang diusulkan adalah SMOTE-LOF, dimana percobaan dilakukan dengan menggunakan dataset yang tidak seimbang dengan hasil kinerja akurasi prediktif ii yang dibandingkan dengan kinerja SMOTE. Hasil penelitian menunjukkan bahwa SMOTE-LOF menghasilkan akurasi dan f-measure yang lebih baik daripada SMOTE. Selain itu, penelitian ini juga menganalisis perubahan metrik jarak dalam menentukan kNN pada SMOTE dari jarak euclidean ke jarak manhattan dan jarak cosine, kemudian menganalisis pengaruh interaksi metrik jarak dengan imbalance ratio (IR) dan jumlah atribut terhadap kinerja akurasi prediksi SMOTE dalam penanganan data tidak seimbang. Eksperimen dilakukan dengan menggunakan dataset tidak seimbang yang disertai dengan perbandingan hasil kinerja akurasi prediksi yang diperoleh dari setiap dataset untuk masing-masing distance metric. Hasil penelitian menunjukkan bahwa interaksi ketiga metrik jarak dengan rasio ketidakseimbangan dan jumlah atribut tidak berpengaruh signifikan terhadap peningkatan kinerja akurasi prediksi. Namun, kinerja yang lebih baik ditemukan untuk SMOTE saat menggunakan jarak Manhattan, dibandingkan dengan jarak euclidean dan jarak cosine. Pendekatan yang diusulkan menunjukkan telah mencapai tujuan penelitian, yaitu dapat memperbaiki SMOTE. Dengan mengidentifikasi noise pada SMOTE kemudian menghapusnya, SMOTE-LOF memiliki accuracy 2 4% lebih baik dan f- measure 1 6% lebih baik daripada SMOTE. Dengan mengubah metrik jarak pada SMOTE yang semula menggunakan euclidean distance, pengubahan metrik jarak pada SMOTE dengan menggunakan manhattan distance memiliki kinerja F1 Score lebih baik 6,93% dan AUC lebih baik 3%.