Seiring dengan bertambahnya jumlah civitas akademika ITB, maka kebutuhan
bandwidth internet di ITB semakin besar. Hal ini juga terkait dengan besarnya
biaya yang dikeluarkan oleh ITB untuk menyediakan bandwidth internet tersebut.
Belum adanya pengelolaan data pemakaian internet di ITB yang berhubungan
dengan perilaku user. Saat ini belum adanya pemodelan perilaku user internet di
ITB sehingga belum diketahui secara pasti seberapa besar kebutuhan bandwidth
terutama untuk proses menjalankan penelitian dan pengajaran di ITB. Pembelian
bandwidth internet berdasarkan pada jumlah pemakaian tahun-tahun sebelumnya,
belum berdasarkan pemodelan jumlah kebutuhan dan penggunaan kapasitas
bandwidth yang ada.
Tujuan penelitian adalah membuat pengukuran kebutuhan bandwidth internet ITB
berdasarkan kelompok user. Kemudian mencari pola sivitas akademika dalam
menggunakan bandwidth internet di ITB. Penelitian dilakuan dengan
menggunakan dua tahapan yaitu data mining dan klasterisasi. Data mining terdiri
atas tahapan Data Cleaning, Data Integration, Data Selection, Data
Transformation, Data Mining, Pattern Evaluation, Knowledge Presentation.
Kemudian dilakukan klasterisasi berdasarkan metode K-Means, Aglomerasi, dan
KMedoids. Proses data cleaning terhadap raw data harus dilakukan sebaik
mungkin, karena akan menentukan kualitas data yang akan diolah selanjutnya.
Variabel yang digunakan adalah username, banyaknya data yang dipakai, dan
konten yang dikunjungi.
Tahapan berikutnya adalah mencari data yang mengakses konten terkait
saintifik/jurnal. Kemudian mencari data yang mengakses konten hiburan. Lalu
dilakukan agregasi banyaknya data yang dipakai berdasarkan username untuk
mendapatkan jumlah pemakaian data secara umum, agregasi berdasarkan
username dan konten untuk mendapatkan jumlah pemakaian berdasarkan
username dan konten. Kelompok konten dibagi menjadi tiga jenis. Konten
saintifik/jurnal adalah kelompok konten yang mengandung materi santifik,
diantaranya adalah jurnal. Kelompok konten hiburan adalah kelompok yang
ii
mengandung konten hiburan seperti media social dan youtube serta konten
sejenis. Kelompok umum adalah kelompok yang mengandung konten selain dua
kelompok sebelumnya.
Setelah didapatkan agregasi-agregasi diatas, maka dilakukan klasterisasi
berdasarkan metode K-Means, Aglomerasi, dan KMedoids. Hasil yang didapatkan
memberikan gambaran bahwa terdapat tiga klaster pada user pada jaringan
internet ITB. Yaitu klaster akses konten saintifik/jurnal (klaster 1), klaster akses
hiburan (klaster 2), klaster akses konten email dan akses konten umum (klaster 3).
Klaster 1 merupakan klaster yang mengakses konten hiburan dan atau konten
umum tetapi cukup besar mengakses konten saintifik disbanding konten lainnya.
Klaster 2 merupakan klaster yang mengakses konten saintifik sangat kecil
dibanding dengan konten hiburan dan atau konten umum. Klaster ketiga adalah
klaster yang hanya mengakses konten hiburan dan atau konten umum saja.
Pada hasil penelitian, pembentukan klaster pada metode K-Means lebih baik
dibandingkan metode Aglomerasi dan KMedoids. Hasil klaster pada metode KMeans
memberikan perbandingan yang konsisten antara jumlah akses konten
saintifik dibandingkan dengan konten lainnya. Untuk metode Aglomerasi dapat
dengan mudah dilihat bahwa user yang tidak mengkases konten saintifik tapi
dimasukkan pada klaster 1. Untuk metode KMedoids, klaster 2 yang terbentuk
sangat kecil sehingga tidak representatif jika dibandingkan dengan klaster yang
lain.