digilib@itb.ac.id +62 812 2508 8800

Cover
PUBLIC karya

Abstrak
PUBLIC karya

Abstract
PUBLIC karya

Lembar Pengesahan
Terbatas karya
» ITB

Daftar Isi
Terbatas karya
» ITB

Tesis
Terbatas karya
» ITB

Lampiran
Terbatas karya
» ITB

Aplikasi Twitter merupakan salah satu sosial media yang dimanfaatkan untuk prostitusi online di Indonesia. Berdasarkan data dari Kominfo diketahui bahwa setiap bulannya ada 1000 akun prostitusi online di twitter yang dilaporkan. Dalam menghadapi prostitusi online, Polri bersifat pasif artinya menunggu adanya laporan dari masyarakat. Salah satu cara untuk mengurangi adanya prostitusi online yaitu dengan melakukan tindakan preventif. Metodenya yaitu dengan melakukan deteksi terhadap akun prostitusi online. Pendekatan teknologi yang dapat digunakan untuk melakukan deteksi terhadap adanya akun prostitusi online pada twitter yaitu dengan machine learning. Sehingga rumusan penelitian ini yaitu bagaimana melakukan deteksi terhadap akun twitter prostitusi online di Indonesia dengan pendekatan machine learning. Metode penelitian yang digunakan dalam penelitian ini yaitu CRISP-DM. CRISP-DM terdiri dari enam tahapan yaitu bussines Understanding, data understanding, data preparation, modeling, evaluation dan deployement. Adapun algoritma machine learning yang digunakan adalah SVM, Random Forest dan Naïve Bayes. Untuk mendapatkan data mengenai akun prostitusi online dilakukan crawling dengan menggunakan hastag yang mengadung prostitusi seperti #openbo dan hastag serupa lainnya. Dari hasil pelabelan data terdapat dua model data set. Model data set pertama adalah data set akun prostitusi dan akun non prostitusi tanpa hastag prostitusi. Model kedua adalah data set akun prostitusi dengan akun non prostitusi dengan hastag prostitusi. Dari hasil penelitian diketahui bahwa untuk model data set 1 terdapat fitur-fitur yang dapat membedakan antara akun prositusi dengan akun non prostitusi yaitu jumlah follower, jumlah tweets, umur akun dan konten (kata dan Hastag). Sedangkan untuk data set 2 adalah yang dapat membedakan antara akun prostitusi dengan akun non prostitusi dengan hastag prostitusi yaitu jumlah tweets, dan konten (hastag dan kata). Selanjutnya dari tiga algoritma yang digunakan SVM, Random Forest dan Naïve Bayes, diketahui bahwa SVM memiliki tingkat akurasi paling tinggi yaitu 98,83% untuk model data set 1, sedangkan Random Forest memiliki akurasi paling tinggi untuk model data set 2 , yaitu 82,93 %.. Kemudian untuk menguji kedua model dilakukan test dengan data baru yang sama sebanyak 150 data secara random. Hasilnya adalah model dataset 2 lebih baik dibandingkan dengan model dataset 1 karena lebih sedikit melakukan kesalahan dalam prediksi yaitu hanya 29 eror dibandingkan dataset 1 sebanyak 37 eror.