Peningkatan jumlah konten sosial media memiliki relevansi terhadap peningkatan prevalensi
ujaran kebencian. Hal ini memberi tantangan berupa kompleksitas dalam membedakan antara
kebebasan berpendapat yang diakui dan ekspresi yang mendorong kebencian. Sehingga diperlukan
sistem identifikasi konten ujaran kebencian yang akurat. Namun, keberadaan bias dalam proses
pengembangan sistem menyebabkan ketidakakuratan dalam mengidentifikasi konten yang
seharusnya dianggap sebagai ujaran kebencian. Untuk mengatasi hal tersebut, penting untuk
menetapkan standar-standar yang jelas terhadap kriteria sebuah ujaran kebencian, sehingga
mengurangi risiko bias dalam proses deteksi. Penelitian ini bertujuan untuk merumuskan kriteria-
kriteria ujaran kebencian berdasarkan konsep-konsep speech, kebencian, dan ujaran kebencian itu
sendiri. Dalam tahap awal, kriteria-kriteria yang terbentuk diterjemahkan ke dalam konteks
linguistik untuk kemudian diimplementasikan dalam algoritma pemrograman pada pra-proses
natural language processing yang bertujuan untuk memberikan label otomatis berdasarkan
kriteria-kriteria yang telah dirumuskan. Tahap selanjutnya melibatkan proses training
menggunakan pendekatan pre-training language model berbasis BERT dan proses fine-tuning
untuk mengadaptasi model pada domain yang relevan dengan ujaran kebencian. Evaluasi
dilakukan dengan memperhatikan akurasi, precision, recall, dan f1-score dari model yang
dikembangkan, sambil menganalisis pengurangan bias yang mungkin dihasilkan oleh model
tersebut. Penelitian ini menghasilkan model dengan akurasi, precision, dan recall yang lebih
unggul dibandingkan penelitian sebelumnya. Keberhasilan model ini disebabkan oleh penetapan
kriteria-kriteria ujaran kebencian yang lebih tegas dan spesifik secara linguistik, sehingga
memungkinkan model untuk lebih tepat dalam mengidentifikasi konten yang mengandung makna
kebencian dan meningkatkan kinerja deteksi secara signifikan.