digilib@itb.ac.id +62 812 2508 8800

Text Mining merupakan proses ekstraksi pola atau pengetahuan yang menarik dan baru dari dokumen teks yang tidak terstruktur. Bidang Text Mining semakin berkembang karena informasi yang tersedia sebagian besar tersimpan dalam koleksi dokumen dalam jumlah sangat besar dari berbagai sumber. Salah satu teknik yang dilakukan untuk menganalisis kumpulan dokumen teks adalah unsupervised document clustering. Teknik ini bertujuan untuk mengorganisasi kumpulan dokumen sesuai dengan isinya, dengan cara memasukkan dokumen-dokumen dengan topik harus berada dalam kelompok yang berbeda juga. Pada tugas akhir ini dilakukan studi dan implementasi teknik semi-supervised clustering berbasis algoritma Expectation Maximasation (EM), yang dikembangkan dengan memanfaatkan umpan balik dari penggunaan (user feedback) berdasarkan [COH00]. Sebuah perangkat lunak dibangun untuk mengimplementasikan keseluruhan tahapan document clustering yang mencakup preprocessing, document clustering, dan penanganan user feedback. Perangkat lunak ini merupakan aplikasi desktop yang dibangun dengan bahasa pemrograman Java. Keluaran dari perangkat lunak berupa cluster dari dokumen-dokumen masukan yang terbentuk, bersama dengan anggota masing-masing cluster. Berdasarkan hasil pengujian menggunakan dataset berupa kumpulan abstrak tesis mahasiswa Program Magister Informatika ITB tahun 2005 dan 2006, ternyata perangkat lunak document clustering tidak memberikan hasil clustering yang cukup baik. Hal ini disebabkan kurang tepatnya penerapan framework EM pada pemodelan proses document clustering yang berbasis multinomial.