Cyberbullying di Indonesia saat ini menjadi perhatian seiring dengan meningkatnya
penggunaan media sosial. Deteksi cyberbullying menjadi satu langkah yang penting
untuk menciptakan lingkungan yang kondusif dalam berinteraksi di media sosial.
Penelitian ini adalah bagian dari komputasi linguistik yang berfokus pada
penggunaan Deep Learning untuk mendeteksi kalimat bullying pada Twitter.
Terdapat dua proses penting pada penelitian ini. Pertama, proses pembentukan
representasi kata. Kedua, proses pengklasifikasian untuk deteksi kalimat bullying.
Proses pra-latih untuk membentuk representasi istilah / kata baru dilakukan secara
independen. Word2vec digunakan sebagai kakas untuk proses pra-latih. Terdapat
dua jenis data yang digunakan pada proses pra-latih. Jenis data pertama hanya
menggunakan data uji dan data latih, sedangkan jenis data kedua adalah data
keseluruhan, yang berjumlah 26.800 kalimat unik Twitter termasuk di dalamnya
data uji dan data latih. Kedua data tersebut digunakan untuk membentuk word
embedding dalam bahasa Indonesia lalu dibandingkan pengaruhnya terhadap hasil
dari proses pengklasifikasian secara keseluruhan. Pemodelan deep learning
dibentuk menggunakan tiga algoritma utama yang populer digunakan untuk
klasifikasi tekstual: LTSM, Bi-LSTM dan CNN.
Sebanyak 9.854 kalimat berlabel diekstraksi dari 2.584 percakapan Twitter
digunakan sebagai dataset. Dataset terdiri atas 1.680 kalimat diberi label bully dan
6.343 kalimat diberi label netral. Total 252 percobaan dilakukan pada penelitian ini
dengan mengeksploitasi tahap pra-proses untuk penentuan fitur pembelajaran
mesin dan algoritma deep learning. Pengujian menunjukkan bahwa akurasi dapat
mencapai hingga 92.28% sedangkan recall untuk kelas bully mencapai 81.65%.