digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Annisa Nurul Azhar
PUBLIC Irwan Sofiyan

Tesis
PUBLIC Irwan Sofiyan

Analisis sentimen berbasis aspek (ASBA) adalah salah satu metode yang banyak digunakan oleh perusahaan untuk mengetahui opini publik secara rinci hingga ke aspek-aspek yang terkandung dalam produk atau jasa. ASBA umumnya dipecah menjadi dua subtask yaitu aspect extraction/categorization yang bertujuan untuk melakukan ekstraksi ekspresi aspek/kategorisasi aspek ke dalam kategori-kategori yang telah ditentukan sebelumnya dan sentiment classification yang bertujuan untuk mengetahui sentimen yang ditujukan pada setiap aspek. Sebelumnya, telah dilakukan penelitian ASBA untuk subtask aspect categorization dan sentiment classification menggunakan convolutional neural network (CNN) sebagai feature extractor dan extreme gradient boosting (XGBoost) sebagai top-level-classifier (Azhar, 2019). Akan tetapi, generalisasi model pada data uji masih kurang baik serta masih terdapat kata-kata out-of-vocabulary (OOV) yang cukup banyak. Oleh karena itu, diperlukan suatu teknik penyelesaian masalah baru yang dapat digunakan untuk menyelesaikan permasalahan tersebut. Saat ini, teknik-teknik pre-training model representasi bahasa berkembang sangat pesat sehingga sebagian besar hasil state-of-the-art untuk beragam task pemrosesan bahasa alami dicapai dengan menggunakan model representasi bahasa seperti OpenAI GPT, ELMo, dan BERT. Dalam penelitian tesis ini, model bahasa pre-trained BERT digunakan untuk menyelesaikan task ASBA untuk teks ulasan berbahasa Indonesia pada domain hotel. Model BERT yang digunakan adalah model multilingual karena saat ini tidak ada model pre-trained BERT khusus bahasa Indonesia yang tersedia untuk umum. Terdapat dua metode penyelesaian masalah dan dua strategi pemanfaatan model bahasa yang dibandingkan melalui eksperimen yaitu single sentence classification dan sentence-pair classification seperti yang diusulkan pada penelitian Sun, dkk. (2019) serta feature extraction dan fine-tuning. Berdasarkan hasil eksperimen gabungan, kombinasi yang menghasilkan kinerja yang paling baik adalah sentence-pair classification dengan fine-tuning yaitu sebesar 0.9751. Untuk hasil pengujian, model yang dihasilkan mencapai nilai F1 sebesar 0.9765 pada data uji I (periode hingga Desember 2018) dan 0,9304 pada data uji II (periode Maret 2019 – Juli 2019). Terdapat peningkatan kinerja sebesar 8% pada data uji I dan 44% pada data uji II dibandingkan dengan kinerja model dari penelitian sebelumnya.