Perkembangan internet yang sangat pesat telah mengakibatkan berbagai sumber
informasi/berita dapat diakses dengan mudah dan cepat. Informasi atau berita yang
tersebar di internet terkadang tidak sesuai dengan keadaan sebenarnya. Sistem
deteksi berita hoax merupakan sebuah sistem yang dibangun untuk menganalisis
kebenaran dalam suatu berita. Salah satu model yang paling populer dalam sistem
deteksi berita hoax adalah penerapan model Word2Vec sebagai feature extraction.
Namun sayangnya model Word2Vec masih memiliki kekurangan yaitu
ketidakmampuan model ini dalam merepresentasikan kata yang tidak terdapat pada
data latih atau OOV (out of vocabulary). Permasalahan ini berdampak pada
penurunan akurasi klasifikasi. Penelitian ini akan menerapkan teknik Query
Expansion dan model XLNet untuk mengurangi kemunculan kata-kata OOV
sehingga model akan mampu mengklasifikasikan berita secara akurat dan
meningkatkan kinerja Word2Vec pada sistem deteksi berita hoax.
Dalam eksperimennya, penelitian ini akan membandingkan kinerja dari
penggabungan Word2Vec dengan model XLNet dan teknik Query Expansion
dengan beberapa kombinasi word embedding dan transformers pada sistem deteksi
berita hoax. Data yang digunakan pada penelitian ini diambil dari platform Kaggle
sebanyak 5568 berita yang telah dilabeli dengan label berita hoax dan valid. Dataset
akan dibagi menjadi 60% data latih, 20% data uji dan 20% data validasi. Hasil
eksperimen pada penelitian ini memperoleh kinerja tertinggi dengan akurasi sebesar
96.76% menggunakan kombinasi Word2Vec, Query Expansion dan XLNet.