Perpustakaan Digital - Digilib ITB

KLASIFIKASI DAN CLUSTERING UNTUK MENDAPATKAN STRUKTUR TEKS LAPORAN MASYARAKAT

768 views

Save At List

Penulis	:	Oktefvia Aruda Lisjana [23520020]
Kontributor / Dosen Pembimbing	:	Dr. Masayu Leylia Khodra, S.T., M.T.
Jenis Koleksi	:	Tesis
Tahun Terbit	:
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	klasifikasi, clustering, teks keluhan, deep learning, Latent Dirichlet Allocation, Term Frequency-Inverse Cluster Frequency
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	0 file
Tanggal Input	:	25 Jun 2022

Teks laporan merupakan teks aduan masyarakat mengenai keluhan didaerahnya yang perlu diklasifikasikan ke kategori dan sub kategori tertentu untuk memudahkan pemerintah menindaklanjuti laporan tersebut. Saat ini, Jakarta Smart City masih menggunakan manusia untuk mengklasifikasikan teks laporan secara manual. Hal ini tentunya memakan waktu yang cukup lama. Selain itu, struktur teks diperlukan agar teks laporan keluhan dapat dikategorikan dengan benar. Oleh karena itu, pengklasifikasian secara otomatis perlu dilakukan. Pada dataset yang tersedia, kategori teks keluhan sudah memiliki label tetapi tidak dengan sub kategori sehingga pada penelitian ini dilakukan klasifikasi kategori dan clustering sub kategori. Penelitian ini menggunakan metode klasifikasi deep learning Recurrent Neural Network (RNN) dan clustering menggunakan pemodelan topik Latent Dirichlet Allocation (LDA). Untuk klasifikasi, terdapat dua jenis unit RNN yang diobservasi yaitu Bidirectional Long Short-Term Memory (Bi-LSTM) dan Gated Recurrent Unit (GRU). Permasalahan lain pada dataset adalah adanya imbalanced dataset (dataset tidak berimbang) sehingga perlu dilakukan penanganan khusus menggunakan Synthetic Minority Over-Sampling Technique (SMOTE) dan Class Weight. Ada dua word embedding yang digunakan yaitu Word2Vec dan FastText. Evaluasi pada klasifikasi menggunakan akurasi dan f1-score macro. Untuk clustering, koherensi topik digunakan untuk menentukan jumlah klaster pada LDA kemudian setiap klaster akan menghasilkan kata kunci. Untuk mendapatkan label secara otomatis, dilakukan perbandingan menggunakan cosine similarity antara kata kunci LDA dengan significant term dari Term Frequency-Inverse Cluster Frequency (TFICF). Selain untuk menentukan jumlah klaster, koherensi topik juga digunakan untuk mengevaluasi hasil klaster. Data pada penelitian ini menggunakan pembagian 80% data latih dan 20% data uji. Validasi data menggunakan 5-fold cross validation. Dari eksperimen klasifikasi yang dilakukan, model terbaik diperoleh melalui kombinasi word embedding FastText dan metode GRU dengan hasil evaluasi akurasi 0.78 dan f1-score macro ii 0.52. Untuk hasil evaluasi clustering, terdapat 20 kategori yang dievaluasi. Hasil evaluasi setiap kategori dapat dilihat pada lampiran C.

Perpustakaan Digital ITB

KLASIFIKASI DAN CLUSTERING UNTUK MENDAPATKAN STRUKTUR TEKS LAPORAN MASYARAKAT

Artikel Terkait

Daftar Simpan Judul

KLASIFIKASI DAN CLUSTERING UNTUK MENDAPATKAN STRUKTUR TEKS LAPORAN MASYARAKAT

Artikel Terkait