Aspect term extraction merupakan langkah penting dalam aspect-based sentiment
analysis. Pada metode Sequential Covering oleh Ruskanda dkk. (2019), performa
langkah tersebut berhasil ditingkatkan menggunakan daftar kata aspek dan opini.
Namun, pembentukan daftar kata aspek dan opini secara manual memakan waktu
dan tenaga. Oleh karena itu, pada tugas akhir ini dirancang sebuah sistem untuk
membangun daftar kata aspek dan opini secara otomatis menggunakan teknik word
embedding. Daftar kata yang dihasilkan disebut sebagai domain-specific lexicon
karena cakupannya diperluas dari sebuah dataset ke sebuah domain.
Pembangunan domain-specific lexicon diawali dengan focused crawling untuk
mengumpulkan data. Selanjutnya dilakukan preprocessing dan pembentukan word
embedding. Setelah word embedding dibentuk, dilakukan ekstraksi kata-kata yang
terkait dengan domain secara supervised dan unsupervised. Domain-specific
lexicon yang dihasilkan selanjutnya digunakan pada metode Sequential Covering
yang dimodifikasi. Metode lain yang dijadikan sebagai baseline adalah Aspectator,
Double Propagation, Sequential Covering tanpa lexicon, dan Sequential Covering
dengan aspect dan opinion list.
Pada pengujian untuk pemisahan aspek dan opini, akurasi terbaik didapatkan dari
metode pemisahan menggunakan SVM dengan fitur vektor kata berukuran 300
dimensi yang dibangun dengan model CBOW. Pada pengujian untuk ekstraksi
aspek, F1 score terbaik yang dihasilkan metode Sequential Covering yang
dimodifikasi pada dataset Nikon Coolpix 4300 (0.645), Canon G3 (0.581), Nokia
6610 (0.629) dan ABSA16_Restaurants_Train_SB1 (0.705) telah mengungguli
baseline Aspectator, Double Propagation, dan Sequential Covering tanpa lexicon.
Namun hasil tersebut lebih rendah dari metode Sequential Covering dengan aspect
dan opinion list, dikarenakan aspek/opini pada dataset uji tidak terdapat pada word
embedding, tidak terdapat aspek/opini yang similar pada domain-specific lexicon,
dan terjadinya human error pada pelabelan data.
Perpustakaan Digital ITB