Sebagai langkah untuk meningkatkan kepuasan dan engagement pelanggan, perusahaan umumnya menyediakan layanan berupa Call Center, Super Apps dan Media Sosial (Twitter, Instagram dan Facebook) untuk menangani keluhan pelanggan. Namun penanganan keluhan kadang masih dilakukan klasifikasi secara manual oleh operator ke dalam Issue Type atau kategorisasi keluhan. Keluhan tersebut bisa diklasifikasikan ke dalam beberapa Issue Type sehingga membutuhkan waktu lebih dan menyebabkan terjadinya kesalahan pada saat pengklasifikasian masalah. Selain itu, terdapat juga data yang tidak seimbang di antara issue type karena keluhan pelanggan yang dilaporkan mayoritas terkait dengan gangguan, sedikit sekali terdapat keluhan yang lain seperti laporan integritas, atau issue type yang lain sehingga data antar issue type menjadi tidak seimbang. Penelitian ini bertujuan untuk membangun model dalam penanganan dataset yang tidak seimbang pada klasifikasi teks multi label dengan pendekatan deep learning.
Metodologi penelitian ini mengacu pada kerangka kerja Cross-Industry Standard Process for Data Mining (CRISP-DM). Tiga pendekatan utama dipertimbangkan dalam proses pemodelan, yaitu 1) pipeline model dengan CNN sebagai encoder dan XGBoost sebagai decoder serta word embedding; 2) end-to-end model dengan fine tuning IndoBERT; 3) end-to-end model dengan fine tuning IndoBERTweet. Dataset yang digunakan dalam penelitian ini terdiri dari 378.382 data keluhan pelanggan yang diperoleh dari media sosial Twitter selama periode 1 Januari 2023 hingga 31 Desember 2023. Penelitian ini menggunakan kombinasi partial over sampling, partial under sampling dan class weight dalam penanganan data tidak seimbang.
Dari penelitian yang dilakukan, model terbaik yang didapatkan adalah fine tuning IndoBERTweet End-to-End dengan kombinasi partial over sampling, partial under sampling dan class weight menghasilkan kinerja lebih bagus dengan akurasi sebesar 0.86, F1-Score 0.56 dan Hamming Loss 0.02 dibandingkan dengan model baseline yaitu IndoBERT-CNN-XGBoost dengan kombinasi partial over sampling, partial under sampling dan class weight menghasilkan akurasi sebesar 0.78, F1-Score 0.43 dan Hamming Loss 0.03.