digilib@itb.ac.id +62 812 2508 8800

Cover
PUBLIC Open In Flip Book karya


Lembar Pengesahan
Terbatas Open In Flip Book karya
» ITB


BAB I
Terbatas Open In Flip Book karya
» ITB

BAB II
Terbatas Open In Flip Book karya
» ITB

BAB III
Terbatas Open In Flip Book karya
» ITB

BAB IV
Terbatas Open In Flip Book karya
» ITB

BAB V
Terbatas Open In Flip Book karya
» ITB


Kebebasan mengungkapkan pendapat di media sosial seringkali disalahgunakan oleh sebagian orang untuk melakukan tindakan ofensif. Sehingga diperlukan suatu mekanisme untuk menyaring unggahan untuk menjaga sosial media tetap kondusif. Tugas akhir ini bertujuan untuk melakukan identifikasi dan kategorisasi bahasa ofensif di media sosial yang terdiri dari tiga subtask yaitu identifikasi bahasa ofensif (subtask A), Kategorisasi terget bahasa ofensif (subtask B) dan identifikasi target ofensif (subtask C). Tugas akhir ini menggunakan OLID dataset yang berukuran relatif kecil dan bersifat imbalanced. Pada penelitian sebelumnya (SemEval-2019 task 6) BERT mendapatkan kinerja terbaik pada subtask A (Liu, dkk 2019) dan subtask C (Radivchev & Nikolov, 2019). Disisi lain penggunaan fine-tuning BERT menghasilkan variance yang tinggi (Risch. dkk 2020). Tugas akhir berfokus melakukan eksperimen untuk mendapatkan arsitektur model terbaik melalui teknik cost-sensitive learning untuk mengatasi imbalanced dataset dan ensemble untuk meningkatkan kinerja BERT. Berdasarkan hasil eksperimen pada data validasi, penggunaan cost-sensitive learning dan ensemble meningkatkan kinerja model pada ketiga subtask. Namun setelah dilakukan pengujian peningkatan kinerja cost-sensitive learning hanya didapatkan pada subtask B 3.16% dibanding model baseline (penelitian Liu, dkk 2019) dan subtask C sebesar 6.85% dibanding model baseline (penelitian Zhou, dkk 2019). Sedangkan pada subtask A tidak terdapat peningkatan. Teknik ensemble terbaik untuk ketiga subtask yaitu dengan pendekatan hard majority voting. Teknik ini memberikan peningkatan kinerja pada subtask A sebesar 0.78% dan subtask B sebesar 1.72% dibanding model dengan teknik cost-sensitive learning. Sedangkan pada subtask C tidak meningkatkan kinerja model. Hasil Tugas Akhir ini menempati urutan pertama state of the art OLID dataset pada subtask B dan menempati urutan kedua pada subtask A dan subtask C