Analisis sentimen berbasis aspek dapat membantu dalam mendapatkan gambaran
umum opini masyarakat terhadap suatu produk atau topik tertentu. satu cakupan
analisis sentimen berbasis aspek adalah melakukan ekstraksi triplet opini, yaitu
mendapatkan daftar triplet ekspresi aspek, ekspresi sentimen, dan polaritas
sentimen yang terkandung dalam kalimat ulasan. Salah satu metode untuk
melakukan ekstraksi triplet opini adalah dengan melakukan klasifikasi terhadap
representasi span. Keunggulan dari pendekatan tersebut adalah penanganan
beberapa subtask secara sekaligus sehingga membantu menangani inkonsistensi
dari prediksi model. Kemudian, tokenisasi serta pemanfaatan pembelajaran transfer
dari model bahasa seperti BERT dapat membantu menangani kasus OOV.
Penelitian ini berfokus dalam melakukan ekstraksi triplet opini dengan representasi
berbasis span, serta pemanfaatan pembelajaran transfer yang menjadi state-of-theart
dari NLP saat ini dalam melakukan task tersebut.
Ekstraksi triplet opini dengan representasi span dapat dilakukan dengan
memodifikasi framework SpanMLT, sehingga bagian relation scorer-nya tidak
hanya melakukan klasifikasi biner ada tidaknya relasi pada suatu pasangan span,
tetapi melakukan klasifikasi multikelas apakah ia memiliki relasi positif, negatif,
atau tidak berelasi. Kemudian, dilakukan penyesuaian terhadap cara pemilihan k
kandidat span teratas yang akan dipasangkan serta penyesuaian terhadap bagian
FFNN pada relation scorer. Penelitian ini menggunakan data ulasan hotel
berbahasa Indonesia sebagai studi kasus. Model bahasa seperti IndoBERT dapat
digunakan sebagai base encoder dari framework tersebut.
Berdasarkan hasil eksperimen, konfigurasi model terbaik untuk kasus ulasan hotel
adalah melakukan post-training terhadap model bahasa yang digunakan, mengatur
panjang maksimal span menjadi empat, persentasi k kandidat span yang dipilih 0.4,
dan rasio pembobotan antara term scorer dan relation scorer satu. Berdasarkan
pengujian, model representasi span belum melampaui model baseline, yaitu model
DOER pada Tugas Akhir Genadi serta fine-tune IndoBERT terhadap task sequence
labelling, juga memiliki nilai recall yang rendah. Model berbasis span yang
dibangun mendapatkan nilai F1-score 0.71 pada untuk task ekstraksi ekspresi aspek
dan ekspresi sentimen dan 0.23 untuk task ekstraksi triplet opini pada data uji.