digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Rifo Ahmad Genadi
PUBLIC Irwan Sofiyan

Analisis sentimen berbasis aspek dapat membantu dalam mendapatkan gambaran umum opini masyarakat terhadap suatu produk atau topik tertentu. satu cakupan analisis sentimen berbasis aspek adalah melakukan ekstraksi triplet opini, yaitu mendapatkan daftar triplet ekspresi aspek, ekspresi sentimen, dan polaritas sentimen yang terkandung dalam kalimat ulasan. Salah satu metode untuk melakukan ekstraksi triplet opini adalah dengan melakukan klasifikasi terhadap representasi span. Keunggulan dari pendekatan tersebut adalah penanganan beberapa subtask secara sekaligus sehingga membantu menangani inkonsistensi dari prediksi model. Kemudian, tokenisasi serta pemanfaatan pembelajaran transfer dari model bahasa seperti BERT dapat membantu menangani kasus OOV. Penelitian ini berfokus dalam melakukan ekstraksi triplet opini dengan representasi berbasis span, serta pemanfaatan pembelajaran transfer yang menjadi state-of-theart dari NLP saat ini dalam melakukan task tersebut. Ekstraksi triplet opini dengan representasi span dapat dilakukan dengan memodifikasi framework SpanMLT, sehingga bagian relation scorer-nya tidak hanya melakukan klasifikasi biner ada tidaknya relasi pada suatu pasangan span, tetapi melakukan klasifikasi multikelas apakah ia memiliki relasi positif, negatif, atau tidak berelasi. Kemudian, dilakukan penyesuaian terhadap cara pemilihan k kandidat span teratas yang akan dipasangkan serta penyesuaian terhadap bagian FFNN pada relation scorer. Penelitian ini menggunakan data ulasan hotel berbahasa Indonesia sebagai studi kasus. Model bahasa seperti IndoBERT dapat digunakan sebagai base encoder dari framework tersebut. Berdasarkan hasil eksperimen, konfigurasi model terbaik untuk kasus ulasan hotel adalah melakukan post-training terhadap model bahasa yang digunakan, mengatur panjang maksimal span menjadi empat, persentasi k kandidat span yang dipilih 0.4, dan rasio pembobotan antara term scorer dan relation scorer satu. Berdasarkan pengujian, model representasi span belum melampaui model baseline, yaitu model DOER pada Tugas Akhir Genadi serta fine-tune IndoBERT terhadap task sequence labelling, juga memiliki nilai recall yang rendah. Model berbasis span yang dibangun mendapatkan nilai F1-score 0.71 pada untuk task ekstraksi ekspresi aspek dan ekspresi sentimen dan 0.23 untuk task ekstraksi triplet opini pada data uji.