Teks laporan merupakan teks aduan masyarakat mengenai keluhan didaerahnya
yang perlu diklasifikasikan ke kategori dan sub kategori tertentu untuk
memudahkan pemerintah menindaklanjuti laporan tersebut. Saat ini, Jakarta Smart
City masih menggunakan manusia untuk mengklasifikasikan teks laporan secara
manual. Hal ini tentunya memakan waktu yang cukup lama. Selain itu, struktur
teks diperlukan agar teks laporan keluhan dapat dikategorikan dengan benar. Oleh
karena itu, pengklasifikasian secara otomatis perlu dilakukan. Pada dataset yang
tersedia, kategori teks keluhan sudah memiliki label tetapi tidak dengan sub
kategori sehingga pada penelitian ini dilakukan klasifikasi kategori dan clustering
sub kategori.
Penelitian ini menggunakan metode klasifikasi deep learning Recurrent Neural
Network (RNN) dan clustering menggunakan pemodelan topik Latent Dirichlet
Allocation (LDA). Untuk klasifikasi, terdapat dua jenis unit RNN yang diobservasi
yaitu Bidirectional Long Short-Term Memory (Bi-LSTM) dan Gated Recurrent
Unit (GRU). Permasalahan lain pada dataset adalah adanya imbalanced dataset
(dataset tidak berimbang) sehingga perlu dilakukan penanganan khusus
menggunakan Synthetic Minority Over-Sampling Technique (SMOTE) dan Class
Weight. Ada dua word embedding yang digunakan yaitu Word2Vec dan FastText.
Evaluasi pada klasifikasi menggunakan akurasi dan f1-score macro. Untuk
clustering, koherensi topik digunakan untuk menentukan jumlah klaster pada LDA
kemudian setiap klaster akan menghasilkan kata kunci. Untuk mendapatkan label
secara otomatis, dilakukan perbandingan menggunakan cosine similarity antara
kata kunci LDA dengan significant term dari Term Frequency-Inverse Cluster
Frequency (TFICF). Selain untuk menentukan jumlah klaster, koherensi topik juga
digunakan untuk mengevaluasi hasil klaster.
Data pada penelitian ini menggunakan pembagian 80% data latih dan 20% data uji.
Validasi data menggunakan 5-fold cross validation. Dari eksperimen klasifikasi
yang dilakukan, model terbaik diperoleh melalui kombinasi word embedding
FastText dan metode GRU dengan hasil evaluasi akurasi 0.78 dan f1-score macro
ii
0.52. Untuk hasil evaluasi clustering, terdapat 20 kategori yang dievaluasi. Hasil
evaluasi setiap kategori dapat dilihat pada lampiran C.