Klasifikasi terhadap informasi hoax perlu dilakukan karena bersifat penipuan dan
berbahaya. Klasifikasi yang telah dilakukan sebelumnya adalah pada email dan sms
hoax. Sedangkan, klasifikasi pada berita hoax belum pernah dilakukan. Diperlukan
seleksi fitur untuk meningkatkan akurasi pada klasifikasi artikel hoax.
Pada penelitian ini, setelah koleksi artikel hoax berbahasa Indonesia dipraproses
kemudian dilakukan eksperimen seleksi fitur menggunakan operasi union dan
intersection. Jenis seleksi fitur yang digunakan adalah information gain, mutual
information, chi-square, term frequency dan TFxIDF yang diujikan pada classifier
Naive Bayes, SVM dan C4.5 dengan menggunakan unigram, bigram serta gabungan
keduanya sebagai model fitur. Dengan koleksi dokumen sebanyak 220 artikel (89
artikel hoax dan 131 artikel bukan hoax) dari 22 topik dengan setiap topik
berjumlah 10 artikel hoax dan bukan hoax. Dilakukan 540 pengujian menggunakan
seleksi fitur tanpa operasi (union dan intersection) dan 720 pengujian seleksi fitur
dengan operasi union dan intersection dari berbagai parameter yakni 3x model fitur,
2x uji stemming, 2x uji stopword elimination, 5x seleksi fitur, 3x classifier dan 3x
variasi jumlah fitur.
Hasil klasifikasi terbaik dihasilkan oleh seleksi fitur dengan operasi union antara
information gain dan mutual information yang menghasilkan akurasi sebesar 91,36
%. Dengan menggunakan information gain saja menghasilkan 90,45 %. Sedangkan,
dengan operasi intersection berada di bawah keduanya yakni sebesar 90 %.
Pengujian ini dilakukan dengan model 10-fold cross validation. Model F1 terbaik
pada analisis incorrect hasil operasi union mampu mencapai 1 dan terendah 0,815.
Eksperimen ini juga menunjukan bahwa seleksi fitur berbasis probabilitas lebih
baik dibandingkan yang berbasis frekuensi.