digilib@itb.ac.id +62 812 2508 8800

2007 TA PP ANDRI TANOTO 1-COVER.pdf


2007 TA PP ANDRI TANOTO 1-BAB 1.pdf

2007 TA PP ANDRI TANOTO 1-BAB 2.pdf

2007 TA PP ANDRI TANOTO 1-BAB 3.pdf

2007 TA PP ANDRI TANOTO 1-BAB 4.pdf

2007 TA PP ANDRI TANOTO 1-BAB 5.pdf

2007 TA PP ANDRI TANOTO 1-BAB 6.pdf

2007 TA PP ANDRI TANOTO 1-PUSTAKA.pdf

Abstrak: Berdasarkan hasil penelitian Li Yanjun, algoritma Clustering based on Frequent Word Sequences (CFWS) versi original menggunakan metode association rules mining pada tahap pencarian frequent word sequences. Pada Tugas Akhir ini dilakukan pengembangan algoritma CFWS tersebut dengan memanfaatkan metode sequential patterns mining untuk menggantikan metode association rules mining. Penggunaan sequential patterns mining tersebut bertujuan agar arti semantik dari kata-kata pada dokumen tetap terjaga. Selain itu, untuk merepresentasikan dokumen digunakan representasi pertama yang berupa himpunan frequent word sequences. Penggunaan metode sequential patterns mining menyebabkan perlunya tahap preprocessing pada algoritma CFWS. Preprocessing yang dilakukan meliputi penghapusan header setiap dokumen dan stopword removal. Tujuan dari preprocessing ini adalah untuk mengurangi ukuran dokumen sehingga proses mendapatkan frequent 2-word sequences dari setiap dokumen menjadi lebih cepat dan efisien. Selain itu, pada Tugas Akhir ini pun dilakukan pengujian terhadap hasil implementasi pengembangan algoritma CFWS serta melakukan analisis terhadap hasil pengujian dengan nilai minimum support, nilai k, dan nilai threshold yang berbeda-beda. Kesimpulan dari Tugas Akhir ini adalah representasi pertama dan metode sequential patterns mining dapat diterapkan pada algoritma CFWS untuk melakukan document clustering. Selain itu, pemilihan nilai minimum support, nilai k dan nilai threshold yang tepat akan menghasilkan hasil clustering yang optimal.