Article Details

KLASIFIKASI MULTILABEL UJARAN KEBENCIAN DAN BAHASA KASAR TEKS TWITTER BERBAHASA INDONESIA

Oleh   Muhammad Raihan Asyraf Desanto [13517027]
Kontributor / Dosen Pembimbing : Dr. Masayu Leylia Khodra, S.T., M.T.;
Jenis Koleksi : S1-Tugas Akhir
Penerbit : STEI - Teknik Informatika
Fakultas : Sekolah Teknik Elektro dan Informatika (STEI)
Subjek :
Kata Kunci : ujaran kebencian; klasifikasi multilabel; imbalanced data; deep neural network; MLSMOTE; akurasi example-based
Sumber :
Staf Input/Edit : Didin Syafruddin Asa, S.Sos  
File : 1 file
Tanggal Input : 29 Mar 2022

ABSTRAK Klasifikasi Multilabel Ujaran Kebencian dan Bahasa Kasar Teks Twitter Berbahasa Indonesia Oleh Muhammad Raihan Asyraf Desanto NIM : 13517027 Sudah banyak penelitian mengenai deteksi ujaran kebencian, namun penelitian-penelitian yang dilakukan sangat bervariasi dalam pendefinisian labelnya. Pada penelitian ini akan menggunakan dataset pada penelitian (Ibrohim & Budi, 2019) yang bersifat multilabel. Salah satu tantangan dalam klasifikasi multilabel adalah mengeksploitasi korelasi antar labelnya. Selain itu, imbalanced data juga dapat menjadi masalah dalam mempengaruhi kinerja model pada klasifikasi multilabel. Penelitian ini berfokus pada penanganan klasifikasi multilabel dan juga penanganan terhadap imbalanced data. Untuk menyelesaikan klasifikasi teks multilabel pada penelitian ini, digunakan adapatasi Classifier Chain (CC) dan Deep Neural Network (DNN). Pada penggunaan adaptasi CC dilakukan dengan penentuan urutan label yang dapat menghasilkan kinerja terbaik. Arsitektur DNN yang digunakan adalah adaptasi arsitektur model CNN-Dense. Penanganan imbalance data pada penelitian ini mengadaptasi teknik Multilabel Synthetic Minority Oversampling Technique (MLSMOTE) dengan menerapkannya pada model baseline dan model yang dikembangkan pada penelitian. Hasil pengujian menunjukkan model DNN yang dikembangkan secara statistik lebih buruk daripada kedua model baseline. Model adaptasi CC yang dikembangkan secara statistik lebih baik daripada model baseline pertama akan tetapi tidak memiliki perbedaan yang signifikan dengan model baseline kedua. Urutan label sangat mempengaruhi kinerja dari CC. Penerapan MLSMOTE belum mampu menangani kasus imbalanced data pada dataset yang memiliki dependensi antar label yang tinggi sehingga tidak menunjukkan pengaruh yang signifikan terhadap model. Kata kunci: ujaran kebencian; klasifikasi multilabel; imbalanced data; deep neural network; MLSMOTE; akurasi example-based