Data teks merupakan data yang sedang berkembang pesat dan dimanfaatkan dalam
berbagai bidang seperti pada chatbot dan question answering yang sedang populer
saat ini. Memiliki data teks yang berkualitas baik, khususnya pada klasifikasi teks
sangat mempengaruhi kinerja dari model yang dibangun. Pelabelan manual oleh
manusia yang selama ini secara umum masih digunakan dalam memberikan label
data latih pada supervised learning membutuhkan biaya yang mahal, rentan salah
dan memiliki kuantitas yang rendah. Pelabelan secara otomatis untuk menyediakan
data latih yang berkualitas dan berkuantitas tinggi sangat diperlukan sehingga dapat
meningkatkan kinerja dari klasifikasi teks. Pada penelitian ini diaplikasikan deteksi
komunitas dengan algoritma Infomap untuk pelabelan otomatis dalam klasifikasi
teks menggunakan XLNet. Model yang dibangun dibandingkan akurasinya dengan
baseline yaitu klasifikasi teks apabila menggunakan data dengan pelabelan manual.
Eksperimen dilakukan dengan studi kasus pada data set question answering. Proses
eksperimen dilakukan secara dua tahap yaitu pelabelan otomatis data latih
menggunakan deteksi komunitas Infomap dan Proses klasifikasi teks. Hasil dari
tahap pertama, berupa data latih yang dilabeli berdasarkan komunitas digunakan
untuk tahap kedua yaitu klasifikasi teks. Klasifikasi teks dilakukan menggunakan
XLNet yang telah melewati proses pre-train. Eksperimen dilakukan dengan 3
skenario untuk membandingkan data label manual, data bigram dan data trigram.
Berdasarkan eksperimen yang dilakukan, pengujian deteksi komunitas tidak hanya
bisa mengacu pada modularitas saja, namun juga dipengaruhi oleh nilai class split
dan class merge yang berdampak pada kualitas dari kinerja deteksi komunitas dan
juga klasifikasi. Hasil penelitian yang dilakukan pada threshold optimal didapatkan
bahwa data bigram unggul pada epoch ke-6 dan epoch ke-10 dengan akurasi 0,2766
dan 0,355, sedangkan data trigram unggul pada epoch ke-10 dengan akurasi 0,286.
Selain itu dari penelitian ini dapat dilihat bahwa pelabelan otomatis dapat
meningkatkan kecepatan klasifikasi rata-rata sebesar 79,13% dibandingkan dengan
data manual, walaupun penurunan akurasi yang didapatkan dari keseluruhan
eksperimen rata-rata sebesar 42,15%. Hal tersebut mengindikasikan bahwa
pelabelan otomatis dapat meningkatkan pelabelan data secara cepat dan
kuantitasnya tinggi meskipun secara akurasi belum bisa mengungguli baseline
secara keseluruhan.