Perpustakaan Digital - Digilib ITB

Advanced Search

EKSPLORASI FEATURE-BASED CLUSTERING MENGGUNAKAN CLOSED SEQUENTIAL PATTERN UNTUK PENGELOMPOKAN DOKUMEN

1 views

Penulis	:	YUDHIE HATMADJI SUDJARWO (NIM 13504098)
Kontributor / Dosen Pembimbing	:	Pembimbing: Dr. Ir. G. A. Putri Saptawati, M.Comm.
Jenis Koleksi	:	Tugas Akhir
Tahun Terbit	:
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	document clustering, sequential patterns, Feature-based Clustering, closed sequential pattern
Sumber	:
Staf Input/Edit	:	Vika Anastasya Kovariansi Ena Sukmana
File	:	8 file
Tanggal Input	:	09 Okt 2017

2009 TA PP YUDHIE HATMADJI SUDJARWO 1-COVER.pdf

2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 1.pdf

2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 2.pdf

2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 3.pdf

2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 4.pdf

2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 5.pdf

2009 TA PP YUDHIE HATMADJI SUDJARWO 1-BAB 6.pdf

2009 TA PP YUDHIE HATMADJI SUDJARWO 1-PUSTAKA.pdf

Tugas Akhir ini menerapkan Feature-based Clustering (FBC) dengan closed sequential pattern (CSP) sebagai fitur untuk pengelompokan dokumen. Hasil pengelompokan kemudian dibandingkan dengan hasil pengelompokan FBC yang memanfaatkan Maximal Frequent Sequence (MFS). FBC dengan CSP diterapkan untuk representasi teks terstruktur berbasis Frequent Sequence yaitu representasi Frequent Word Sequences (FWS), himpunan FWS (HFWS), dan representasi Sequential pattern (SP).Pengelompokkan dilakukan berdasarkan sejumlah himpunan kata terurut yang muncul pada dokumen. Himpunan kata terurut dalam bentuk sequential pattern, kemudian diseleksi dengan aturan CSP dan MFS menghasilkan himpunan urutan kata yang disebut fitur untuk kemudian digunakan sebagai acuan pengelompokan. Jumlah himpunan urutan kata CSP mungkin berbeda dengan MFS. Analisis dititikberatkan pada pengaruh perbedaan jumlah himpunan ini berpengaruh terhadap hasil pengelompokkan. Dari hasil analisis diperoleh bahwa jumlah himpunan urutan kata MFS dapat lebih kecil atau sama dengan jumlah himpunan CSP, karena MFS mengeliminasi sejumlah urutan kata yang dipertahankan oleh CSP. Hal ini membuat jumlah himpunan urutan kata MFS lebih kecil atau sama dengan jumlah CSP. Diperoleh hipotesa bahwa ada beberapa urutan kata yang tereliminasi MFS namun dipertahankan CSP, dapat mempengaruhi hasil pengelompokan.Dengan menggunakan dataset yang dibentuk dari file e-mail informal dalam bahasa inggris Twenty Newsgroup Text Data, direkayasa kasus uji menggunakan beberapa parameter pengelompokan yaitu nilai minimum support, panjang dan frekuensi urutan kata, gap, dan metode seleksi fitur. Hasil analisis dimana perbedaan jumlah himpunan MFS dan CSP dapat mempengaruhi hasil pengelompokan tidak terbukti melalui pengujian. Selain itu, FBC dengan CSP tidak dapat mengungguli MFS dari segi waktu proses pengelompokkan. Hal ini disebabkan jumlah himpunan urutan kata CSP yang menjadi acuan, lebih banyak dibanding dengan MFS.

Perpustakaan Digital ITB

Advanced Search

EKSPLORASI FEATURE-BASED CLUSTERING MENGGUNAKAN CLOSED SEQUENTIAL PATTERN UNTUK PENGELOMPOKAN DOKUMEN

Artikel Terkait