Article Details

KLASIFIKASI BERITA HOAX BERBAHASA INDONESIA DENGAN MENGGUNAKAN SELEKSI FITUR

Oleh   Errissya Rasywir [23513066]
Kontributor / Dosen Pembimbing : Dr.Eng. Ayu Purwarianti, S.T., M.T.;
Jenis Koleksi : S2 - Tesis
Penerbit : STEI - Informatika
Fakultas : Sekolah Teknik Elektro dan Informatika (STEI)
Subjek :
Kata Kunci : hoax; artikel hoax; model fitur; seleksi fitur; classifier; klasifikasi dokumen teks; union; intersection; k-fold cross validation.
Sumber :
Staf Input/Edit : karya  
File : 1 file
Tanggal Input : 2020-10-21 08:52:48

Generic placeholder image

Tesis

PUBLIC


Klasifikasi terhadap informasi hoax perlu dilakukan karena bersifat penipuan dan berbahaya. Klasifikasi yang telah dilakukan sebelumnya adalah pada email dan sms hoax. Sedangkan, klasifikasi pada berita hoax belum pernah dilakukan. Diperlukan seleksi fitur untuk meningkatkan akurasi pada klasifikasi artikel hoax. Pada penelitian ini, setelah koleksi artikel hoax berbahasa Indonesia dipraproses kemudian dilakukan eksperimen seleksi fitur menggunakan operasi union dan intersection. Jenis seleksi fitur yang digunakan adalah information gain, mutual information, chi-square, term frequency dan TFxIDF yang diujikan pada classifier Naive Bayes, SVM dan C4.5 dengan menggunakan unigram, bigram serta gabungan keduanya sebagai model fitur. Dengan koleksi dokumen sebanyak 220 artikel (89 artikel hoax dan 131 artikel bukan hoax) dari 22 topik dengan setiap topik berjumlah 10 artikel hoax dan bukan hoax. Dilakukan 540 pengujian menggunakan seleksi fitur tanpa operasi (union dan intersection) dan 720 pengujian seleksi fitur dengan operasi union dan intersection dari berbagai parameter yakni 3x model fitur, 2x uji stemming, 2x uji stopword elimination, 5x seleksi fitur, 3x classifier dan 3x variasi jumlah fitur. Hasil klasifikasi terbaik dihasilkan oleh seleksi fitur dengan operasi union antara information gain dan mutual information yang menghasilkan akurasi sebesar 91,36 %. Dengan menggunakan information gain saja menghasilkan 90,45 %. Sedangkan, dengan operasi intersection berada di bawah keduanya yakni sebesar 90 %. Pengujian ini dilakukan dengan model 10-fold cross validation. Model F1 terbaik pada analisis incorrect hasil operasi union mampu mencapai 1 dan terendah 0,815. Eksperimen ini juga menunjukan bahwa seleksi fitur berbasis probabilitas lebih baik dibandingkan yang berbasis frekuensi.