digilib@itb.ac.id +62 812 2508 8800

ABSTRAK - I PUTU EKA SURYA ADITYA
PUBLIC Didin Syafruddin Asa, S.Sos

ABSTRAK PEMBELAJARAN TRANSFER DENGAN POST TRAINING UNTUK ANALISIS SENTIMEN BERBASIS ASPEK BERBAHASA INDONESIA Oleh I Putu Eka Surya Aditya NIM: 23530053 (Program Studi Magister Informatika) Analisis sentimen berbasis aspek memiliki peran penting dalam pengembangan bisnis karena memudahkan pelaku bisnis untuk mengevaluasi umpan balik dari pelanggan pada setiap aspek layanan. Dalam beberapa tahun terakhir, pre-trained model bahasa seperti ELMo, BERT, XLM-R dan XLNet telah mencapai sukses besar dalam tugas pemrosesan bahasa alami (NLP) khususnya analisis sentimen berbasis aspek. Untuk Bahasa Indonesia sendiri telah ada beberapa penelitian mengenai tugas analisis sentimen berbasis aspek. Penelitian terbaru oleh (Azhar dan Khodra, 2020) menggunakan mBERT sebagai pre-trained model bahasa dan berhasil mencapai mencapai kinerja terbaik untuk data ulasan berdomain hotel. Pendekatan yang digunakan oleh (Azhar dan Khodra, 2020) adalah penggunaan kalimat bantu yang diadaptasi dari penelitian (Sun dkk., 2019). Terdapat pendekatan lain yang juga mencapai kinerja bagus pada tugas analisis sentimen berbasis aspek, yaitu post-training oleh (Xu dkk., 2019). Pada penelitiannya (Xu dkk., 2019) melakukan post-training pada untuk tugas analisis sentimen berbasis aspek dan joint post-training pada tugas Review Reading Comprehension (RRC). Pada penelitian ini dilakukan pengujian untuk melihat pengaruh pendekatan posttraining dan joint post-training pada task klasifikasi sentimen berbasis aspek dengan menggunakan pre-trained model bahasa yang berbeda dari penelitian sebelumnya. Pada penelitian ini, digunakan tiga pre-trained model bahasa, yaitu: BERT (mBERT dan IndoBERT), XLM-R, dan XLNet (XLNet English dan XLNet Malay). Untuk pendekatan penyelesaian masalah digunakan dua pendekatan yaitu penggunaan kalimat bantu (Sun dkk., 2019) dan post-training/joint post-training (Xu dkk., 2019). Data yang digunakan pada penelitian ini dibagi menjadi tiga jenis data, yaitu data untuk post-training, data untuk joint post-training dan data untuk pelatihan dan pengujian. Data untuk post-training adalah ulasan hotel tanpa label (unsupervised), data untuk joint post-training adalah data ulasan mobil, dan data untuk pelatihan dan pengujian sama dengan data yang digunakan pada penelitian (Azhar dan Khodra, 2020). Hasil pengujian menunjukkan bahwa IndoBERT memiliki kinerja yang lebih baik dari model baseline (mBERT) baik dengan atau tanpa pendekatan post-training. Pendekatan post-training pada XLM-R mencapai kinerja terbaik dengan F1-score sebesar 0.9875 pada data Uji 1 dan 0.9614 pada data Uji II. Model tersebut mengungguli baseline (mBERT tanpa post-training) sebesar 1.04% pada data Uji ii 1 dan 2.92% pada data uji 2. Hal ini dikarenakan XLM-R dilatih dengan parameter yang jauh lebih banyak dan ukuran kamus yang jauh lebih besar dari mBERT. Hasil pengujian juga menunjukkan kinerja model hasil post-training mengungguli model hasil joint post-training pada semua pre-trained model bahasa. Model pada tesis ini mencapai kinerja terbaik pada data ulasan hotel berbahasa Indonesia (HoASA). Kata kunci: analisis sentimen berbasis aspek, NLP, pre-trained model bahasa, IndoBERT, XLM-R, XLNet, kalimat bantu, post-training, joint post-training.