2007 TA PP DINI RAHMAWATI 1-COVER.pdf
2007 TA PP DINI RAHMAWATI 1-BAB1.pdf
2007 TA PP DINI RAHMAWATI 1-BAB2.pdf
2007 TA PP DINI RAHMAWATI 1-BAB3.pdf
2007 TA PP DINI RAHMAWATI 1-BAB4.pdf
2007 TA PP DINI RAHMAWATI 1-BAB5.pdf
2007 TA PP DINI RAHMAWATI 1-BAB5.pdf
2007 TA PP DINI RAHMAWATI 1-BAB6.pdf
2007 TA PP DINI RAHMAWATI 1-PUSTAKA.pdf
Abstrak:
Teknik pengelompokan dokumen (document clustering) standar umumnya menggunakan representasi single-word terms, namun dalam Tugas Akhir ini digunakan teknik representasi multi-word terms dengan sequence of word sebagai term. Metode clustering yang dapat diterapkan untuk pengelompokan dokumen dengan multi-word terms berupa sequence of words adalah Feature-based Clustering (FBC). FBC adalah suatu metode clustering yang memanfaatkan informasi sekuensial yang ada dalam data yang diolahnya.
Dokumen teks merupakan data yang tidak terstruktur, untuk itu diperlukan proses-proses pendukung yang memungkinkan penerapan FBC untuk pengelompokan dokumen. Proses ini meliputi preprocessing dokumen teks menjadi data sekuensial sehingga dapat dihasilkan Sequential Patterns (SP) yang sesuai untuk teks, yaitu SP bentuk sederhana yang berupa Maximal Frequent Sequences (MFS). Kemudian diikuti dengan preprocessing MFS yang diperoleh hingga dapat diolah dengan algoritma clustering K-Means untuk menghasilkan clusters.
Hasil analisis FBC untuk pengelompokan dokumen ini diimplementasikan dalam perangkat lunak CLUSTy. Perangkat lunak ini menerima masukan berupa dokumen teks anggota dari Twenty News Group Text Data atau dokumen berbahasa Inggris lain dengan format yang sama. Dilakukan delapan kali pengujian dengan menggunakan Twenty News Group Text Data dimana pada setiap pengujian digunakan dataset dengan karakteristik berbeda yang dipilih sesuai dengan tujuan pengujian.
Dari Tugas Akhir ini disimpulkan bahwa FBC dapat diterapkan untuk pengelompokan dokumen. Meskipun akurasi clusters yang dihasilkan tidak maksimal, hasil ini dapat dikategorikan baik untuk suatu sistem pengelompokan dokumen. Tidak maksimalnya hasil clusters yang diperoleh kemungkinan disebabkan karena tidak sesuainya dataset yang digunakan.