digilib@itb.ac.id +62 812 2508 8800

Tesis
PUBLIC karya

Klasifikasi terhadap informasi hoax perlu dilakukan karena bersifat penipuan dan berbahaya. Klasifikasi yang telah dilakukan sebelumnya adalah pada email dan sms hoax. Sedangkan, klasifikasi pada berita hoax belum pernah dilakukan. Diperlukan seleksi fitur untuk meningkatkan akurasi pada klasifikasi artikel hoax. Pada penelitian ini, setelah koleksi artikel hoax berbahasa Indonesia dipraproses kemudian dilakukan eksperimen seleksi fitur menggunakan operasi union dan intersection. Jenis seleksi fitur yang digunakan adalah information gain, mutual information, chi-square, term frequency dan TFxIDF yang diujikan pada classifier Naive Bayes, SVM dan C4.5 dengan menggunakan unigram, bigram serta gabungan keduanya sebagai model fitur. Dengan koleksi dokumen sebanyak 220 artikel (89 artikel hoax dan 131 artikel bukan hoax) dari 22 topik dengan setiap topik berjumlah 10 artikel hoax dan bukan hoax. Dilakukan 540 pengujian menggunakan seleksi fitur tanpa operasi (union dan intersection) dan 720 pengujian seleksi fitur dengan operasi union dan intersection dari berbagai parameter yakni 3x model fitur, 2x uji stemming, 2x uji stopword elimination, 5x seleksi fitur, 3x classifier dan 3x variasi jumlah fitur. Hasil klasifikasi terbaik dihasilkan oleh seleksi fitur dengan operasi union antara information gain dan mutual information yang menghasilkan akurasi sebesar 91,36 %. Dengan menggunakan information gain saja menghasilkan 90,45 %. Sedangkan, dengan operasi intersection berada di bawah keduanya yakni sebesar 90 %. Pengujian ini dilakukan dengan model 10-fold cross validation. Model F1 terbaik pada analisis incorrect hasil operasi union mampu mencapai 1 dan terendah 0,815. Eksperimen ini juga menunjukan bahwa seleksi fitur berbasis probabilitas lebih baik dibandingkan yang berbasis frekuensi.