Prostitusi online melalui media sosial, khususnya Twitter, telah menjadi
permasalahan yang serius dengan dampak hukum dan sosial yang signifikan.
Dalam penelitian ini, dikembangkan sebuah model untuk mendeteksi akun-
akun yang terlibat dalam aktivitas prostitusi online menggunakan kombinasi
algoritma machine learning dan representasi linguistik canggih dari model
BERT (Bidirectional Encoder Representations from Transformers). Dataset yang
digunakan diperoleh melalui scraping lebih dari 4.000 tweet dengan tagar yang
berkaitan dengan prostitusi, yang kemudian diproses melalui pembersihan data,
ekstraksi fitur, dan pelabelan manual untuk membedakan akun prostitusi dan
non-prostitusi.
Penelitian ini mengintegrasikan metode machine learning, seperti Random Forest,
Decision Tree, dan Support Vector Machine (SVM), dengan kekuatan representasi
semantik dari BERT, termasuk penerapan pendekatan zero-shot classification.
Label probabilitas yang dihasilkan dari zero-shot classification berbasis BERT,
berupa skor ”prostitusi” dan ”non-prostitusi,” ditambahkan sebagai fitur baru pada
dataset numerik. Penambahan fitur ini memberikan kontribusi semantik tambahan
yang tidak tersedia dalam data numerik, memungkinkan model untuk memahami
konteks linguistik yang lebih kompleks.
Hasil penelitian menunjukkan peningkatan kinerja model secara signifikan setelah
menambahkan fitur BERT. Akurasi meningkat dari 71,21% menjadi 80%, presisi
dari 67,64% menjadi 88,14%, dan F1-score dari 73,93% menjadi 83,87%.
Temuan ini menunjukkan bahwa zero-shot classification berbasis BERT tidak
hanya meningkatkan kinerja deteksi akun prostitusi online, tetapi juga memberikan
keseimbangan yang lebih baik antara presisi dan sensitivitas, menjadikannya solusi
yang efektif untuk menangani permasalahan pada platform media sosial.