digilib@itb.ac.id +62 812 2508 8800

Permasalahan dalam automatic text categorization adalah tidak tersedianya data latih yang besar sehingga model klasifikasi yang dibuat menghasilkan akurasi yang rendah. Selain itu, proses pembuatan data latih secara manual dengan cara melabeli satu per satu dokumen akan memerlukan waktu yang lama. Untuk mengatasi masalah ini dapat digunakan metode semi supervised untuk proses pelabelan dokumen serta pembentukan model klasifikasi. Metode ini dilakukan dengan cara pembelajaran secara inkremental dan terdapat user feedback. Pembelajaran dimulai dengan melatih dokumen berlabel berjumlah sedikit menjadi model klasifikasi. Model ini digunakan untuk memprediksi label kategori pada dokumen uji. Kemudian, prediksi label kategori tersebut dicek kebenarannya dengan bantuan manusia. Model klasifikasi kembali dilatih dengan mengikutsertakan data uji yang sudah dicek. Proses ini diulang sampai jumlah data berlabel tercukupi. Pada penelitian ini, jenis dokumen yang digunakan adalah berita. Hasil yang didapatkan adalah 10.404 berita telah berhasil dikategorisasi ke dalam 14 label kategori serta model klasifikasi berita dengan algoritma Naïve Bayes dibentuk dengan akurasi 86,2%.