ABSTRAK
PEMBELAJARAN TRANSFER DENGAN POST TRAINING
UNTUK ANALISIS SENTIMEN BERBASIS ASPEK
BERBAHASA INDONESIA
Oleh
I Putu Eka Surya Aditya
NIM: 23530053
(Program Studi Magister Informatika)
Analisis sentimen berbasis aspek memiliki peran penting dalam pengembangan
bisnis karena memudahkan pelaku bisnis untuk mengevaluasi umpan balik dari
pelanggan pada setiap aspek layanan. Dalam beberapa tahun terakhir, pre-trained
model bahasa seperti ELMo, BERT, XLM-R dan XLNet telah mencapai sukses
besar dalam tugas pemrosesan bahasa alami (NLP) khususnya analisis sentimen
berbasis aspek. Untuk Bahasa Indonesia sendiri telah ada beberapa penelitian
mengenai tugas analisis sentimen berbasis aspek. Penelitian terbaru oleh (Azhar
dan Khodra, 2020) menggunakan mBERT sebagai pre-trained model bahasa dan
berhasil mencapai mencapai kinerja terbaik untuk data ulasan berdomain hotel.
Pendekatan yang digunakan oleh (Azhar dan Khodra, 2020) adalah penggunaan
kalimat bantu yang diadaptasi dari penelitian (Sun dkk., 2019). Terdapat
pendekatan lain yang juga mencapai kinerja bagus pada tugas analisis sentimen
berbasis aspek, yaitu post-training oleh (Xu dkk., 2019). Pada penelitiannya (Xu
dkk., 2019) melakukan post-training pada untuk tugas analisis sentimen berbasis
aspek dan joint post-training pada tugas Review Reading Comprehension (RRC).
Pada penelitian ini dilakukan pengujian untuk melihat pengaruh pendekatan posttraining
dan joint post-training pada task klasifikasi sentimen berbasis aspek
dengan menggunakan pre-trained model bahasa yang berbeda dari penelitian
sebelumnya.
Pada penelitian ini, digunakan tiga pre-trained model bahasa, yaitu: BERT
(mBERT dan IndoBERT), XLM-R, dan XLNet (XLNet English dan XLNet
Malay). Untuk pendekatan penyelesaian masalah digunakan dua pendekatan yaitu
penggunaan kalimat bantu (Sun dkk., 2019) dan post-training/joint post-training
(Xu dkk., 2019). Data yang digunakan pada penelitian ini dibagi menjadi tiga jenis
data, yaitu data untuk post-training, data untuk joint post-training dan data untuk
pelatihan dan pengujian. Data untuk post-training adalah ulasan hotel tanpa label
(unsupervised), data untuk joint post-training adalah data ulasan mobil, dan data
untuk pelatihan dan pengujian sama dengan data yang digunakan pada penelitian
(Azhar dan Khodra, 2020).
Hasil pengujian menunjukkan bahwa IndoBERT memiliki kinerja yang lebih baik
dari model baseline (mBERT) baik dengan atau tanpa pendekatan post-training.
Pendekatan post-training pada XLM-R mencapai kinerja terbaik dengan F1-score
sebesar 0.9875 pada data Uji 1 dan 0.9614 pada data Uji II. Model tersebut
mengungguli baseline (mBERT tanpa post-training) sebesar 1.04% pada data Uji
ii
1 dan 2.92% pada data uji 2. Hal ini dikarenakan XLM-R dilatih dengan parameter
yang jauh lebih banyak dan ukuran kamus yang jauh lebih besar dari mBERT. Hasil
pengujian juga menunjukkan kinerja model hasil post-training mengungguli model
hasil joint post-training pada semua pre-trained model bahasa. Model pada tesis ini
mencapai kinerja terbaik pada data ulasan hotel berbahasa Indonesia (HoASA).
Kata kunci: analisis sentimen berbasis aspek, NLP, pre-trained model bahasa,
IndoBERT, XLM-R, XLNet, kalimat bantu, post-training, joint post-training.