Perpustakaan Digital - Digilib ITB

PENANGANAN IMBALANCED DATA UNTUK KATEGORISASI MULTILABEL ASPEK TEKS ULASAN DENGAN TEKNIK COCOA, MLSMOTE, DAN MLSOL

109 views

Penulis	:	Wildan Dicky Alnatara [13516012]
Kontributor / Dosen Pembimbing	:	Dr. Masayu Leylia Khodra, S.T., M.T.
Jenis Koleksi	:	Tugas Akhir
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	kategorisasi aspek, imbalanced data, Cross-Coupling Aggregation, Multilabel Synthetic Minority Over-sampling Technique, Multilabel Synthetic Oversampling approach based on the Local distribution of labels, convulational neural network, classifier chain, XGBoost
Sumber	:
Staf Input/Edit	:	karya
File	:	5 file
Tanggal Input	:	22 Sep 2020

PUBLIC karya

PUBLIC karya

PUBLIC karya

PUBLIC karya

PUBLIC karya

Analisis sentimen berbasis aspek memberikan informasi yang lebih detail daripada analisis sentimen pada level dokumen ataupun level kalimat. Kategorisasi aspek merupakan salah satu task dari tiga task untuk melakukan sentimen analisis berbasis aspek. Task kategorisasi aspek ini berfokus pada pengenalan aspek yang ingin diketahui sentimennya. Pada kategorisasi aspek, bentuk data yang digunakan adalah multilabel. Sering kali di dalam data tersebut terdapat label-label yang jumlahnya lebih sedikit dibandingkan label lain. Kondisi ini disebut imbalanced data. Tugas akhir ini berfokus pada task kategorisasi aspek dengan penanganan imbalanced data untuk teks ulasan berbahasa Indonesia berdomain hotel yang belum ditangani pada penelitian sebelumnya. Data yang digunakan berjumlah 9284 sebagai data latih dan berjumlah 996 sebagai data uji. Kategori aspek yang terdapat pada data tersebut berjumlah 10 aspek. Untuk melakukan penanganan imbalanced data multilabel pada tugas akhir ini, digunakan teknik problem transformation Cross-Coupling Aggregation (COCOA), teknik oversampling Multilabel Synthetic Minority Over-sampling Technique (MLSMOTE) dan teknik oversampling Multilabel Synthetic Oversampling approach based on the Local distribution of labels (MLSOL). Tugas akhir ini menggunakan arsitektur Convolutional Neural Network (CNN)- Classifier Chain(CC)-Extreme Gradient Boosting (XGBoost) pada penelitian sebelumnya untuk kategorisasi aspek sebagai dasar pengembangan lebih lanjut untuk penanganan imbalanced data dengan 3 teknik yang telah disebutkan sebelumnya. Teknik oversampling MLSMOTE dan COCOA memberikan kinerja yang lebih baik dalam memperbaiki kinerja CNN-CC-XGBoost. Hiperparameter terbaik dari MLSMOTE (number of neighbors, random state) berdasarkan hasil eksperimen adalah 5 dan 42. Hiperparameter terbaik dari COCOA (binary relevance mode, multiclass mode, random state, binary relevance ratio) berdasarkan hasil eksperimen adalah smote-oversampling, smoteoversampling, 10, dan 0.5. COCOA and MLSMOTE berhasil memberikan menghasilkan F1-macro sebesar 0.9272 dan 0.9276.

Perpustakaan Digital ITB

PENANGANAN IMBALANCED DATA UNTUK KATEGORISASI MULTILABEL ASPEK TEKS ULASAN DENGAN TEKNIK COCOA, MLSMOTE, DAN MLSOL

Artikel Terkait