Permasalahan dalam automatic text categorization adalah tidak tersedianya data latih yang besar sehingga model
klasifikasi yang dibuat menghasilkan akurasi yang rendah. Selain itu, proses pembuatan data latih secara manual
dengan cara melabeli satu per satu dokumen akan memerlukan waktu yang lama. Untuk mengatasi masalah ini
dapat digunakan metode semi supervised untuk proses pelabelan dokumen serta pembentukan model klasifikasi.
Metode ini dilakukan dengan cara pembelajaran secara inkremental dan terdapat user feedback. Pembelajaran
dimulai dengan melatih dokumen berlabel berjumlah sedikit menjadi model klasifikasi. Model ini digunakan
untuk memprediksi label kategori pada dokumen uji. Kemudian, prediksi label kategori tersebut dicek
kebenarannya dengan bantuan manusia. Model klasifikasi kembali dilatih dengan mengikutsertakan data uji yang
sudah dicek. Proses ini diulang sampai jumlah data berlabel tercukupi. Pada penelitian ini, jenis dokumen yang
digunakan adalah berita. Hasil yang didapatkan adalah 10.404 berita telah berhasil dikategorisasi ke dalam 14
label kategori serta model klasifikasi berita dengan algoritma Naïve Bayes dibentuk dengan akurasi 86,2%.
Perpustakaan Digital ITB