Perpustakaan Digital ITB

ANALISIS SENTIMEN PADA BAHASA SUNDA MENGGUNAKAN PRE-TRAINED LANGUAGE MODEL MULTI BAHASA

485 views

Penulis	:	Hadi Permana [23519033]
Kontributor / Dosen Pembimbing	:	Dr.Eng. Ayu Purwarianti, S.T., M.T.
Jenis Koleksi	:	Tesis
Tahun Terbit	:
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	analisis sentimen, bahasa Sunda, multilingual model, low-resource language XLM-R, XLM-Tw
Sumber	:
Staf Input/Edit	:	Alice Diniarti
File	:	7 file
Tanggal Input	:	14 Sep 2022

COVER Hadi Permana

PUBLIC Open In Flip Book Alice Diniarti

BAB 1 Hadi Permana

PUBLIC Open In Flip Book Alice Diniarti

BAB 2 Hadi Permana

PUBLIC Open In Flip Book Alice Diniarti

BAB 3 Hadi Permana

PUBLIC Open In Flip Book Alice Diniarti

BAB 4 Hadi Permana

PUBLIC Open In Flip Book Alice Diniarti

BAB 5 Hadi Permana

PUBLIC Open In Flip Book Alice Diniarti

PUSTAKA Hadi Permana

PUBLIC Open In Flip Book Alice Diniarti

Banyaknya pengguna media sosial mengakibatkan data teks yang tersedia secara digital sangat banyak. Data dari media sosial tersebut tidak hanya menggunakan bahasa Indonesia, tetapi juga menggunakan bahasa daerah seperti di daerah Jawa Barat menggunakan bahasa Sunda. Sayangnya, masih sedikit penelitian dengan menggunakan data bahasa Sunda dalam kasus natural language processing (NLP). Sehingga penelitian ini bertujuan untuk memanfaatkan data tersebut dalam task analisis sentimen. Akan tetapi pada pemanfaatannya terdapat teks yang tercampur dengan bahasa lain dan ketika mengambil data dari media social, terdapat masalah yaitu banyaknya kata typo, atau kata-kata yang tidak baku atau out-of vocabulary (OOV). Untuk mengatasi masalah tersebut, penulis akan menggunakan model pretrained language model multi bahasa. Dalam eksperimennya, penelitian ini menggunakan empat model untuk mengetahui kinerja terbaik dalam task analisis sentimen pada bahasa Sunda yaitu, Naive Bayes, XLM-R, XLM-Tw dan mBERT. Data yang digunakan pada penelitian ini diambil dari media sosial twitter sebanyak 7.771 tweet dengan query “persib” yang telah dianotasi dengan sentimen neutral, negative dan positive. Data tersebut dibagi menjadi 60% data latih 20% data validasi dan 20% data uji. Hasil eksperimen pada penelitian ini memperoleh kinerja tertinggi dengan akurasi sebesar 87% menggunakan model XLM-Tw dengan teknik fine-tuning. Hasil tersebut meningkat dibandingkan dengan akurasi dari model Naïve Bayes dan XLM-R juga dilakukan eksperimen menggunakan dataset bahasa Sunda NusaX dengan model XLM-Tw dan mendapatkan akurasi 82%.