digilib@itb.ac.id +62 812 2508 8800

COVER Hadi Permana
PUBLIC Alice Diniarti

BAB 1 Hadi Permana
PUBLIC Alice Diniarti

BAB 2 Hadi Permana
PUBLIC Alice Diniarti

BAB 3 Hadi Permana
PUBLIC Alice Diniarti

BAB 4 Hadi Permana
PUBLIC Alice Diniarti

BAB 5 Hadi Permana
PUBLIC Alice Diniarti

PUSTAKA Hadi Permana
PUBLIC Alice Diniarti

Banyaknya pengguna media sosial mengakibatkan data teks yang tersedia secara digital sangat banyak. Data dari media sosial tersebut tidak hanya menggunakan bahasa Indonesia, tetapi juga menggunakan bahasa daerah seperti di daerah Jawa Barat menggunakan bahasa Sunda. Sayangnya, masih sedikit penelitian dengan menggunakan data bahasa Sunda dalam kasus natural language processing (NLP). Sehingga penelitian ini bertujuan untuk memanfaatkan data tersebut dalam task analisis sentimen. Akan tetapi pada pemanfaatannya terdapat teks yang tercampur dengan bahasa lain dan ketika mengambil data dari media social, terdapat masalah yaitu banyaknya kata typo, atau kata-kata yang tidak baku atau out-of vocabulary (OOV). Untuk mengatasi masalah tersebut, penulis akan menggunakan model pretrained language model multi bahasa. Dalam eksperimennya, penelitian ini menggunakan empat model untuk mengetahui kinerja terbaik dalam task analisis sentimen pada bahasa Sunda yaitu, Naive Bayes, XLM-R, XLM-Tw dan mBERT. Data yang digunakan pada penelitian ini diambil dari media sosial twitter sebanyak 7.771 tweet dengan query “persib” yang telah dianotasi dengan sentimen neutral, negative dan positive. Data tersebut dibagi menjadi 60% data latih 20% data validasi dan 20% data uji. Hasil eksperimen pada penelitian ini memperoleh kinerja tertinggi dengan akurasi sebesar 87% menggunakan model XLM-Tw dengan teknik fine-tuning. Hasil tersebut meningkat dibandingkan dengan akurasi dari model Naïve Bayes dan XLM-R juga dilakukan eksperimen menggunakan dataset bahasa Sunda NusaX dengan model XLM-Tw dan mendapatkan akurasi 82%.