2009 TA PP YUDHIE HATMADJI SUDJARWO 1-COVER.pdf
2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 1.pdf
2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 2.pdf
2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 3.pdf
2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 4.pdf
2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 5.pdf
2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 6.pdf
2009 TA PP YUDHIE HATMADJI SUDJARWO 1-PUSTAKA.pdf
Tugas Akhir ini menerapkan Feature-based Clustering (FBC) dengan closed sequential pattern (CSP) sebagai fitur untuk pengelompokan dokumen. Hasil pengelompokan kemudian dibandingkan dengan hasil pengelompokan FBC yang memanfaatkan Maximal Frequent Sequence (MFS). FBC dengan CSP diterapkan untuk representasi teks terstruktur berbasis Frequent Sequence yaitu representasi Frequent Word Sequences (FWS), himpunan FWS (HFWS), dan representasi Sequential pattern (SP).Pengelompokkan dilakukan berdasarkan sejumlah himpunan kata terurut yang muncul pada dokumen. Himpunan kata terurut dalam bentuk sequential pattern, kemudian diseleksi dengan aturan CSP dan MFS menghasilkan himpunan urutan kata yang disebut fitur untuk kemudian digunakan sebagai acuan pengelompokan. Jumlah himpunan urutan kata CSP mungkin berbeda dengan MFS. Analisis dititikberatkan pada pengaruh perbedaan jumlah himpunan ini berpengaruh terhadap hasil pengelompokkan. Dari hasil analisis diperoleh bahwa jumlah himpunan urutan kata MFS dapat lebih kecil atau sama dengan jumlah himpunan CSP, karena MFS mengeliminasi sejumlah urutan kata yang dipertahankan oleh CSP. Hal ini membuat jumlah himpunan urutan kata MFS lebih kecil atau sama dengan jumlah CSP. Diperoleh hipotesa bahwa ada beberapa urutan kata yang tereliminasi MFS namun dipertahankan CSP, dapat mempengaruhi hasil pengelompokan.Dengan menggunakan dataset yang dibentuk dari file e-mail informal dalam bahasa inggris Twenty Newsgroup Text Data, direkayasa kasus uji menggunakan beberapa parameter pengelompokan yaitu nilai minimum support, panjang dan frekuensi urutan kata, gap, dan metode seleksi fitur. Hasil analisis dimana perbedaan jumlah himpunan MFS dan CSP dapat mempengaruhi hasil pengelompokan tidak terbukti melalui pengujian. Selain itu, FBC dengan CSP tidak dapat mengungguli MFS dari segi waktu proses pengelompokkan. Hal ini disebabkan jumlah himpunan urutan kata CSP yang menjadi acuan, lebih banyak dibanding dengan MFS.