Kebebasan mengungkapkan pendapat di media sosial seringkali disalahgunakan oleh sebagian
orang untuk melakukan tindakan ofensif. Sehingga diperlukan suatu mekanisme untuk menyaring
unggahan untuk menjaga sosial media tetap kondusif. Tugas akhir ini bertujuan untuk melakukan
identifikasi dan kategorisasi bahasa ofensif di media sosial yang terdiri dari tiga subtask yaitu
identifikasi bahasa ofensif (subtask A), Kategorisasi terget bahasa ofensif (subtask B) dan
identifikasi target ofensif (subtask C).
Tugas akhir ini menggunakan OLID dataset yang berukuran relatif kecil dan bersifat imbalanced.
Pada penelitian sebelumnya (SemEval-2019 task 6) BERT mendapatkan kinerja terbaik pada
subtask A (Liu, dkk 2019) dan subtask C (Radivchev & Nikolov, 2019). Disisi lain penggunaan
fine-tuning BERT menghasilkan variance yang tinggi (Risch. dkk 2020). Tugas akhir berfokus
melakukan eksperimen untuk mendapatkan arsitektur model terbaik melalui teknik cost-sensitive
learning untuk mengatasi imbalanced dataset dan ensemble untuk meningkatkan kinerja BERT.
Berdasarkan hasil eksperimen pada data validasi, penggunaan cost-sensitive learning dan
ensemble meningkatkan kinerja model pada ketiga subtask. Namun setelah dilakukan pengujian
peningkatan kinerja cost-sensitive learning hanya didapatkan pada subtask B 3.16% dibanding
model baseline (penelitian Liu, dkk 2019) dan subtask C sebesar 6.85% dibanding model baseline
(penelitian Zhou, dkk 2019). Sedangkan pada subtask A tidak terdapat peningkatan. Teknik
ensemble terbaik untuk ketiga subtask yaitu dengan pendekatan hard majority voting. Teknik ini
memberikan peningkatan kinerja pada subtask A sebesar 0.78% dan subtask B sebesar 1.72%
dibanding model dengan teknik cost-sensitive learning. Sedangkan pada subtask C tidak
meningkatkan kinerja model. Hasil Tugas Akhir ini menempati urutan pertama state of the art
OLID dataset pada subtask B dan menempati urutan kedua pada subtask A dan subtask C