Perpustakaan Digital - Digilib ITB

KATEGORISASI ASPEK DAN KLASIFIKASI SENTIMEN UNTUK TEKS ULASAN BERBAHASA INDONESIA PADA DOMAIN HOTEL

97 views

Penulis	:	Annisa Nurul Azhar [13515129]
Kontributor / Dosen Pembimbing	:	Dr. Masayu Leylia Khodra, S.T., M.T.
Jenis Koleksi	:	Tugas Akhir
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	kategorisasi aspek, klasifikasi sentimen, klasifikasi multilabel, klasifikasi label tunggal, convolutional neural network, extreme gradient boosting
Sumber	:
Staf Input/Edit	:	karya
File	:	8 file
Tanggal Input	:	28 Jun 2019

Abstrak

PUBLIC karya

COVER Annisa Nurul Azhar
Terbatas karya
» Gedung UPT Perpustakaan

BAB 1 Annisa Nurul Azhar
Terbatas karya
» Gedung UPT Perpustakaan

BAB 2 Annisa Nurul Azhar
Terbatas karya
» Gedung UPT Perpustakaan

BAB 3 Annisa Nurul Azhar
Terbatas karya
» Gedung UPT Perpustakaan

BAB 4 Annisa Nurul Azhar
Terbatas karya
» Gedung UPT Perpustakaan

BAB 5 Annisa Nurul Azhar
Terbatas karya
» Gedung UPT Perpustakaan

PUSTAKA Annisa Nurul Azhar
Terbatas karya
» Gedung UPT Perpustakaan

Analisis sentimen pada level aspek mampu untuk mendapatkan informasi yang lebih rinci dibandingkan dengan analisis sentimen pada level dokumen atau kalimat yaitu informasi aspek dan sentimen yang terdapat dalam teks ulasan. Terdapat tiga task dalam analisis sentimen pada level aspek yaitu kategorisasi aspek, ekstraksi ekspresi aspek, dan klasifikasi sentimen. Tugas akhir ini berfokus pada task kategorisasi aspek dan klasifikasi sentimen untuk ulasan berbahasa Indonesia pada domain hotel. Kategorisasi aspek termasuk dalam task klasifikasi multilabel sementara klasifikasi sentimen termasuk dalam task klasifikasi label tunggal kelas biner. Dataset yang digunakan pada tugas akhir ini terdiri dari 9450 teks ulasan untuk hotel sebagai data latih dan 509 teks ulasan sebagai data uji. Terdapat 10 kategori aspek yang dipertimbangkan pada tugas akhir ini. Sementara itu, polaritas sentimen yang dipertimbangkan adalah positif dan negatif. Untuk menyelesaikan task kategorisasi aspek dan task klasifikasi sentimen pada tugas akhir ini, digunakan teknik Convolutional Neural Network (CNN)-Extreme Gradient Boosting (XGBoost) seperti pada penelitian Ren, dkk. (2017) tentang klasifikasi label tunggal multikelas untuk citra. Topologi CNN yang akan digunakan untuk pembangunan model CNN-XGBoost mengacu pada topologi CNN pada penelitian Chen, dkk. (2017) tentang klasifikasi multilabel untuk teks. Adapun fitur yang digunakan adalah fitur leksikal yang direpresentasikan dengan word embedding. Model baseline yang dipilih yaitu menggunakan teknik vanilla CNN, CNN-Support Vector Machine (SVM), dan CNN-Long Short-Term Memory (LSTM). Strategi klasifikasi multilabel yang digunakan adalah binary relevance dan classifier chain. Kombinasi hiperparameter CNN (number of filters, window size, activation function, dan dense units) terbaik untuk task kategorisasi aspek berdasarkan hasil eksperimen adalah 128, [2,3,4], ReLU, dan 128. Sementara itu, untuk kombinasi hiperparameter XGBoost (learning rate, minimum height, minimum child weight, gamma, column sample by tree) terbaik berdasarkan hasil eksperimen adalah 0.2, 3, 1, 0, dan 0.7. Hasil pengujian dalam F1-measure untuk task kategorisasi aspek, task klasifikasi sentimen, serta gabungan secara berturut-turut adalah 0.9217, 0.9690, dan 0.7274. Model dengan teknik yang diusulkan mampu melampaui kinerja seluruh model baseline pada task kategorisasi aspek tetapi masih lebih rendah dari baseline vanilla CNN dan CNN-SVM pada task klasifikasi sentiment untuk beberapa kategori aspek.

Perpustakaan Digital ITB

KATEGORISASI ASPEK DAN KLASIFIKASI SENTIMEN UNTUK TEKS ULASAN BERBAHASA INDONESIA PADA DOMAIN HOTEL

Artikel Terkait