digilib@itb.ac.id +62 812 2508 8800

Maria Irmina P NIM 33218014.pdf
PUBLIC Dessy Rondang Monaomi

Random Forest adalah algoritme pembelajaran mesin berbasis pohon dengan proses pemilihan fitur acak yang informatif. Salah satu metode yang digunakan untuk menentukan tingkat kepentingannya dalam suatu dataset adalah Information Gain (IG). Proses ini digunakan untuk menghitung jumlah informasi yang terkandung dalam fitur dengan nilai informasi tinggi yang dipilih untuk mempercepat kinerja suatu algoritme. Dalam memilih fitur yang informatif, IG menggunakan nilai ambang batas (cut-off). Umumnya nilai ambang digunakan bebas, atau menggunakan nilai 0.05. Penelitian ini mengusulkan modifikasi pada algoritme IG, dengan menentukan nilai ambang berdasarkan nilai Standar Deviasi, median dan nilai median real pada fitur yang telah ditransformasi. Tujuan utama dari penelitian adalah mencari kecepatan eksekusi dari Random Forest, dengan tetap memperhatikan nilai akurasi yang dihasilkan. Dataset yang digunakan untuk pengujian adalah sepuluh dataset yang tersedia pada UCI Machine Learning Repository dan Kaggle, yang mempunyai tujuan klasifikasi. Seluruh pengujian dibandingkan dengan hasil seleksi fitur dengan nilai ambang 0.05, algoritme Correlation-Based Feature Selection dan Random Forest tanpa seleksi fitur. Usulan pertama adalah penentuan nilai ambang dengan menggunakan Standar Deviasi dari nilai IG yang dihasilkan oleh masing-masing fitur pada dataset. Penentuan nilai ambang usulan pertama ini diujicobakan pada delapan dataset asli dan datataset yang sudah ditransformasi dengan menggunakan Fast Fourier Transform). Pengujian pada dataset asli dan dataset tertransformasi menghasilkan waktu eksekusi pada Random Forest dengan seleksi fitur lebih sedikit dibandingkan dengan Random Forest tanpa seleksi fitur. Lebih dari 80% dari semua dataset membutuhkan waktu lebih sedikit dibandingkan dengan Random Forest tanpa seleksi fitur. Sedangkan untuk nilai akurasi, 62.5% dari dataset asli mempunyai nilai akurasi yang sama dengan nilai akurasi yang dihasilkan oleh Random Forest tanpa seleksi fitur. Penentuan nilai ambang juga diujikan dengan menggunakan nilai tengah (median) dari nilai IG yang dihasilkan oleh masing-masing fitur pada dataset. Sebelum menghitung nilai median, nilai IG yang sudah didapatkan terlebih dahulu ditransformasi dengan menggunakan Fast Fourier Transform. Metode IG dengan ambang median menghasilkan nilai rata-rata akurasi yang lebih baik dibandingkan dengan Correlation-Based Feature Selection, ambang 0.05, dan ambang berdasarkan standar deviasi. Namun nilai rata-rata akurasi pada metode ini dapat lebih meningkat jika menggunakan IG berdasarkan ambang median dengan menggunakan nilai real pada fitur yang sudah ditransformasi. Sedangkan untuk mendapat rata-rata waktu yang dibutuhkan (kecepatan) metode yang lebih baik adalah metode IG berdasarkan ambang standar deviasi. Usulan nilai ambang kedua adalah pemilihan fitur dengan terlebih dahulu mentransformasikan nilai IG menggunakan metode Fast Fourier Transform, dan mencari nilai median secara berulang. Ujicoba menggunakan total 9 set data yang terdiri dari 3 set data balance dan 6 set data imbalance. Selanjutnya, untuk menyeimbangkan data, digunakan Minority Synthetic Over-Sampling Technique (SMOTE) pada dataset yang tidak seimbang. Hasil penelitian menunjukkan bahwa pemilihan fitur menggunakan IG dengan ambang median berulang, Fast Fourier Transform, dan SMOTE meningkatkan akurasi kinerja Random Forest. Pengujian model yang digunakan adalah K-Fold Cross Validation dengan K=10 dan metode membagi dataset menjadi dua bagian. 75% untuk data latih dan 25% untuk data uji. Dari ujicoba yang dilakukan didapatkan bahwa metode IG dengan ambang berdasarkan nilai median berulang (MRT) menghasilkan nilai rata-rata akurasi yang meningkat antara 0,18% sampai 3,43% dibandingkan dengan IG berdasarkan standar deviasi. Sedangkan jika dibandingkan dengan IG berdasarkan median, rata- rata akurasi IG berdasarkan median berulang meningkat antara 1,84% sampai 5,75%. Sedangkan untuk mendapat rata-rata waktu yang dibutuhkan (kecepatan) metode yang lebih baik adalah metode IG berdasarkan ambang standar deviasi. Seleksi fitur dengan algoritme IG berdasarkan ambang Standar Deviasi dan IG berdasarkan ambang MRT juga dibandingkan algoritme K-NN dan SVM. Nilai akurasi yang dihasilkan dari kedua usulan lebih unggul antara 0.0054 sampai 0.4788 point.