Random Forest adalah algoritme pembelajaran mesin berbasis pohon dengan proses
pemilihan fitur acak yang informatif. Salah satu metode yang digunakan untuk
menentukan tingkat kepentingannya dalam suatu dataset adalah Information Gain
(IG). Proses ini digunakan untuk menghitung jumlah informasi yang terkandung
dalam fitur dengan nilai informasi tinggi yang dipilih untuk mempercepat kinerja
suatu algoritme. Dalam memilih fitur yang informatif, IG menggunakan nilai
ambang batas (cut-off). Umumnya nilai ambang digunakan bebas, atau
menggunakan nilai 0.05. Penelitian ini mengusulkan modifikasi pada algoritme IG,
dengan menentukan nilai ambang berdasarkan nilai Standar Deviasi, median dan
nilai median real pada fitur yang telah ditransformasi. Tujuan utama dari penelitian
adalah mencari kecepatan eksekusi dari Random Forest, dengan tetap
memperhatikan nilai akurasi yang dihasilkan. Dataset yang digunakan untuk
pengujian adalah sepuluh dataset yang tersedia pada UCI Machine Learning
Repository dan Kaggle, yang mempunyai tujuan klasifikasi. Seluruh pengujian
dibandingkan dengan hasil seleksi fitur dengan nilai ambang 0.05, algoritme
Correlation-Based Feature Selection dan Random Forest tanpa seleksi fitur.
Usulan pertama adalah penentuan nilai ambang dengan menggunakan Standar
Deviasi dari nilai IG yang dihasilkan oleh masing-masing fitur pada dataset.
Penentuan nilai ambang usulan pertama ini diujicobakan pada delapan dataset asli
dan datataset yang sudah ditransformasi dengan menggunakan Fast Fourier
Transform). Pengujian pada dataset asli dan dataset tertransformasi menghasilkan
waktu eksekusi pada Random Forest dengan seleksi fitur lebih sedikit dibandingkan
dengan Random Forest tanpa seleksi fitur. Lebih dari 80% dari semua dataset
membutuhkan waktu lebih sedikit dibandingkan dengan Random Forest tanpa
seleksi fitur. Sedangkan untuk nilai akurasi, 62.5% dari dataset asli mempunyai
nilai akurasi yang sama dengan nilai akurasi yang dihasilkan oleh Random Forest
tanpa seleksi fitur.
Penentuan nilai ambang juga diujikan dengan menggunakan nilai tengah (median)
dari nilai IG yang dihasilkan oleh masing-masing fitur pada dataset. Sebelum
menghitung nilai median, nilai IG yang sudah didapatkan terlebih dahulu
ditransformasi dengan menggunakan Fast Fourier Transform. Metode IG dengan ambang median menghasilkan nilai rata-rata akurasi yang lebih baik dibandingkan
dengan Correlation-Based Feature Selection, ambang 0.05, dan ambang
berdasarkan standar deviasi. Namun nilai rata-rata akurasi pada metode ini dapat
lebih meningkat jika menggunakan IG berdasarkan ambang median dengan
menggunakan nilai real pada fitur yang sudah ditransformasi. Sedangkan untuk
mendapat rata-rata waktu yang dibutuhkan (kecepatan) metode yang lebih baik
adalah metode IG berdasarkan ambang standar deviasi.
Usulan nilai ambang kedua adalah pemilihan fitur dengan terlebih dahulu
mentransformasikan nilai IG menggunakan metode Fast Fourier Transform, dan
mencari nilai median secara berulang. Ujicoba menggunakan total 9 set data yang
terdiri dari 3 set data balance dan 6 set data imbalance. Selanjutnya, untuk
menyeimbangkan data, digunakan Minority Synthetic Over-Sampling Technique
(SMOTE) pada dataset yang tidak seimbang. Hasil penelitian menunjukkan bahwa
pemilihan fitur menggunakan IG dengan ambang median berulang, Fast Fourier
Transform, dan SMOTE meningkatkan akurasi kinerja Random Forest. Pengujian
model yang digunakan adalah K-Fold Cross Validation dengan K=10 dan metode
membagi dataset menjadi dua bagian. 75% untuk data latih dan 25% untuk data uji.
Dari ujicoba yang dilakukan didapatkan bahwa metode IG dengan ambang
berdasarkan nilai median berulang (MRT) menghasilkan nilai rata-rata akurasi yang
meningkat antara 0,18% sampai 3,43% dibandingkan dengan IG berdasarkan
standar deviasi. Sedangkan jika dibandingkan dengan IG berdasarkan median, rata-
rata akurasi IG berdasarkan median berulang meningkat antara 1,84% sampai
5,75%. Sedangkan untuk mendapat rata-rata waktu yang dibutuhkan (kecepatan)
metode yang lebih baik adalah metode IG berdasarkan ambang standar deviasi.
Seleksi fitur dengan algoritme IG berdasarkan ambang Standar Deviasi dan IG
berdasarkan ambang MRT juga dibandingkan algoritme K-NN dan SVM. Nilai
akurasi yang dihasilkan dari kedua usulan lebih unggul antara 0.0054 sampai
0.4788 point.