Website atau situs web bermuatan negatif adalah situs web yang mengandung satu atau beberapa unsur berikut, yaitu: pornografi, tindakan kekerasan dan pemaksaan pada anak, hasutan untuk melakukan tindakan anarki, dan perjudian. Situs web bermuatan negatif tumbuh bersama dengan berkembangnya internet. Beberapa upaya untuk menyaring situs web bermuatan negatif telah dilakukan oleh pihak yang berwenang. Diantaranya adalah pembuatan daftar situs web bermuatan negatif bernama TRUST+™ Positif yang menjadi acuan aktifitas blocking situs web negatif yang dilakukan oleh ISP (Internet Service Provider). Pengkinian data TRUST+™ Positif dilakukan dengan melakukan verifikasi manual terhadap laporan dari masyarakat dan proses back engine crawling. Untuk membuat proses pengkinian data TRUST+™ Positif menjadi lebih baik maka dilakukan analisis data riwayat penjelajahan internet sehingga proses identifikasi situs web bermuatan negatif dapat dilakukan secara otomatis. Identifikasi situs web bermuatan negatif dengan memanfaatkan riwayat penjelajahan internet dilakukan menggunakan proses data mining. Teknik yang juga dikenal dengan nama web usage mining tersebut dapat menggunakan beberapa algoritma data mining, seperti association rule dan frequent sequence. Dengan mempertimbangkan referensi hasil penelitian oleh Mathias Ge ́ry dan Hatem Haddad dengan judul Evaluation of Web Usage Mining Approaches for User’s Next Request Prediction maka digunakan association rule dengan tujuan untuk dapat memberikan kemungkinan tujuan navigasi yang baru. Algoritma association rule yang dipakai adalah Apriori. Untuk mendapatkan hasil yang paling baik dengan algoritma tersebut dilakukan beberapa macam proses penyiapan data riwayat penjelajahan internet, yaitu dengan memperhitungkan urutan pengguna internet saat mengunjungi situs bermuatan negatif yang telah masuk di daftar TRUST+™ Positif dan waktu rata-rata sesi penggunaan jaringan internet. Untuk memperkecil jumlah data yang diproses pada web usage mining pada penelitian ini juga dilakukan filtering out situs web yang dikunjungi oleh pengguna internet yang tidak pernah mengunjugi situs web bermuatan negatif. Hasil web usage mining dibandingkan dengan daftar TRUST+™ Positif versi yang lebih baru untuk mengetahui seberapa banyak situs web bermuatan negatif baru dapat diidentifikasi. Proses web usage mining dengan algoritma Apriori memberikan hasil bahwa nilai support dan confident yang dapat digunakan maksimal adalah sebesar 0,001. Hal tersebut timbul akibat banyaknya variasi situs web yang dikunjungi oleh pengguna internet dan tidak populernya situs web bermuatan negatif. Proses penyiapan data dengan memisahkan situs web yang dikunjungi pengguna sebelum dan sesudah mengunjungi situs web bermuatan negatif tidak memberikan hasil yang lebih baik dibandingkan penggunaan data secara keseluruhan. Filtering out situs web yang dikunjungi oleh pengguna internet yang tidak mengunjungi situs web bermuatan negatif pada proses penyiapan data dapat mengurangi jumlah data yang diolah pada web usage mining dengan tetap mempertahankan jumlah situs web bermuatan negatif baru yang ditemukan. Hasil web usage mining yang tidak masuk ke dalam daftar TRUST+™ Positif versi yang lebih baru juga diduga berpotensi mengandung muatan negatif karena memiliki kata kunci yang berelasi dengan situs web bermuatan negatif seperti “sex”, “porn”, “fuck”, “tits”, “cock”, “bokep”, “xxx”, “poker”, “lesbi”, dan “hentai”. Beberapa kesimpulan yang dapat diambil dari penelitian ini antara lain adalah riwayat penjelajahan internet dapat digunakan untuk proses identifikasi situs web bermuatan negatif secara otomatis. Hasil yang didapat dapat digunakan untuk pengkinian data situs web bermuatan negatif yang terdaftar di TRUST+™ Positif. Model penyiapan data untuk proses identifikasi situs web bermuatan negatif dengan memanfaatkan riwayat penjelajahan internet memberikan pengaruh yang besar terhadap hasil yang didapat. Penyiapan data dengan menggunakan data penjelajahan pengguna internet yang menduduki jaringan di atas 25,5 menit dan melakukan filtering out situs web yang dikunjungi oleh pengguna internet yang tidak mengunjungi situs web bermuatan negatif memberikan hasil identifikasi situs web bermuatan negatif yang paling baik dengan jumlah sumber data web usage mining yang paling sedikit.
Perpustakaan Digital ITB