digilib@itb.ac.id +62 812 2508 8800

Cover
PUBLIC karya

Abstrak
PUBLIC karya

Abstract
PUBLIC karya

Lembar Pengesahan
PUBLIC karya

Tugas Akhir
PUBLIC karya

Analisis sentimen berbasis aspek memberikan informasi yang lebih detail daripada analisis sentimen pada level dokumen ataupun level kalimat. Kategorisasi aspek merupakan salah satu task dari tiga task untuk melakukan sentimen analisis berbasis aspek. Task kategorisasi aspek ini berfokus pada pengenalan aspek yang ingin diketahui sentimennya. Pada kategorisasi aspek, bentuk data yang digunakan adalah multilabel. Sering kali di dalam data tersebut terdapat label-label yang jumlahnya lebih sedikit dibandingkan label lain. Kondisi ini disebut imbalanced data. Tugas akhir ini berfokus pada task kategorisasi aspek dengan penanganan imbalanced data untuk teks ulasan berbahasa Indonesia berdomain hotel yang belum ditangani pada penelitian sebelumnya. Data yang digunakan berjumlah 9284 sebagai data latih dan berjumlah 996 sebagai data uji. Kategori aspek yang terdapat pada data tersebut berjumlah 10 aspek. Untuk melakukan penanganan imbalanced data multilabel pada tugas akhir ini, digunakan teknik problem transformation Cross-Coupling Aggregation (COCOA), teknik oversampling Multilabel Synthetic Minority Over-sampling Technique (MLSMOTE) dan teknik oversampling Multilabel Synthetic Oversampling approach based on the Local distribution of labels (MLSOL). Tugas akhir ini menggunakan arsitektur Convolutional Neural Network (CNN)- Classifier Chain(CC)-Extreme Gradient Boosting (XGBoost) pada penelitian sebelumnya untuk kategorisasi aspek sebagai dasar pengembangan lebih lanjut untuk penanganan imbalanced data dengan 3 teknik yang telah disebutkan sebelumnya. Teknik oversampling MLSMOTE dan COCOA memberikan kinerja yang lebih baik dalam memperbaiki kinerja CNN-CC-XGBoost. Hiperparameter terbaik dari MLSMOTE (number of neighbors, random state) berdasarkan hasil eksperimen adalah 5 dan 42. Hiperparameter terbaik dari COCOA (binary relevance mode, multiclass mode, random state, binary relevance ratio) berdasarkan hasil eksperimen adalah smote-oversampling, smoteoversampling, 10, dan 0.5. COCOA and MLSMOTE berhasil memberikan menghasilkan F1-macro sebesar 0.9272 dan 0.9276.