digilib@itb.ac.id +62 812 2508 8800


Tesis
PUBLIC Irwan Sofiyan

Saat ini informasi dapat ditemukan dari berbagai sumber, salah satunya adalah media sosial. Media sosial menyediakan informasi berskala besar dan dapat digunakan untuk berbagai keperluan. Permasalahannya adalah bagaimana mengolah informasi tersebut menjadi suatu pengetahuan. Kasus penggunaan informasi yang diangkat dalam penelitian ini adalah untuk analisis topik yang sedang marak digunakan. Pendeteksian topik dapat dilakukan salah satunya dengan menggunakan klusterisasi. Penelitian ini berfokus pada efisiensi algoritma klusterisasi untuk data teks. Data teks yang diambil dari Twitter diproses menggunakan algoritma klusterisasi sehingga menghasilkan bag of words, dimana bag of words dari setiap kluster mewakili sebuah topik. Algoritma yang diusulkan adalah Single Pass Fuzzy Means, sebuah algoritma yang didasari oleh algoritma Fuzzy C-Means dengan penerapan threshold kemiripan dalam pembentukan klusternya. Data teks yang digunakan dalam eksperimen ditransformasi menggunakan Vector Space Model dan pembobotan TF-IDF, kemudian diklusterisasi menggunakan Single Pass Fuzzy Means. Dari hasil pengujian, Single Pass Fuzzy Means dapat menghasilkan kluster dengan kualitas yang hampir setara dengan Fuzzy C-Means. Eksperimen juga menunjukkan bahwa waktu pemrosesan yang dibutuhkan lebih cepat dibandingkan dengan Fuzzy C-Means.