Banyaknya pengguna media sosial mengakibatkan data teks yang tersedia secara
digital sangat banyak. Data dari media sosial tersebut tidak hanya menggunakan
bahasa Indonesia, tetapi juga menggunakan bahasa daerah seperti di daerah Jawa
Barat menggunakan bahasa Sunda. Sayangnya, masih sedikit penelitian dengan
menggunakan data bahasa Sunda dalam kasus natural language processing (NLP).
Sehingga penelitian ini bertujuan untuk memanfaatkan data tersebut dalam task
analisis sentimen. Akan tetapi pada pemanfaatannya terdapat teks yang tercampur
dengan bahasa lain dan ketika mengambil data dari media social, terdapat masalah
yaitu banyaknya kata typo, atau kata-kata yang tidak baku atau out-of vocabulary
(OOV). Untuk mengatasi masalah tersebut, penulis akan menggunakan model pretrained
language model multi bahasa.
Dalam eksperimennya, penelitian ini menggunakan empat model untuk mengetahui
kinerja terbaik dalam task analisis sentimen pada bahasa Sunda yaitu, Naive Bayes,
XLM-R, XLM-Tw dan mBERT. Data yang digunakan pada penelitian ini diambil
dari media sosial twitter sebanyak 7.771 tweet dengan query “persib” yang telah
dianotasi dengan sentimen neutral, negative dan positive. Data tersebut dibagi
menjadi 60% data latih 20% data validasi dan 20% data uji. Hasil eksperimen pada
penelitian ini memperoleh kinerja tertinggi dengan akurasi sebesar 87%
menggunakan model XLM-Tw dengan teknik fine-tuning. Hasil tersebut meningkat
dibandingkan dengan akurasi dari model Naïve Bayes dan XLM-R juga dilakukan
eksperimen menggunakan dataset bahasa Sunda NusaX dengan model XLM-Tw
dan mendapatkan akurasi 82%.