digilib@itb.ac.id +62 812 2508 8800

Data teks merupakan data yang sedang berkembang pesat dan dimanfaatkan dalam berbagai bidang seperti pada chatbot dan question answering yang sedang populer saat ini. Memiliki data teks yang berkualitas baik, khususnya pada klasifikasi teks sangat mempengaruhi kinerja dari model yang dibangun. Pelabelan manual oleh manusia yang selama ini secara umum masih digunakan dalam memberikan label data latih pada supervised learning membutuhkan biaya yang mahal, rentan salah dan memiliki kuantitas yang rendah. Pelabelan secara otomatis untuk menyediakan data latih yang berkualitas dan berkuantitas tinggi sangat diperlukan sehingga dapat meningkatkan kinerja dari klasifikasi teks. Pada penelitian ini diaplikasikan deteksi komunitas dengan algoritma Infomap untuk pelabelan otomatis dalam klasifikasi teks menggunakan XLNet. Model yang dibangun dibandingkan akurasinya dengan baseline yaitu klasifikasi teks apabila menggunakan data dengan pelabelan manual. Eksperimen dilakukan dengan studi kasus pada data set question answering. Proses eksperimen dilakukan secara dua tahap yaitu pelabelan otomatis data latih menggunakan deteksi komunitas Infomap dan Proses klasifikasi teks. Hasil dari tahap pertama, berupa data latih yang dilabeli berdasarkan komunitas digunakan untuk tahap kedua yaitu klasifikasi teks. Klasifikasi teks dilakukan menggunakan XLNet yang telah melewati proses pre-train. Eksperimen dilakukan dengan 3 skenario untuk membandingkan data label manual, data bigram dan data trigram. Berdasarkan eksperimen yang dilakukan, pengujian deteksi komunitas tidak hanya bisa mengacu pada modularitas saja, namun juga dipengaruhi oleh nilai class split dan class merge yang berdampak pada kualitas dari kinerja deteksi komunitas dan juga klasifikasi. Hasil penelitian yang dilakukan pada threshold optimal didapatkan bahwa data bigram unggul pada epoch ke-6 dan epoch ke-10 dengan akurasi 0,2766 dan 0,355, sedangkan data trigram unggul pada epoch ke-10 dengan akurasi 0,286. Selain itu dari penelitian ini dapat dilihat bahwa pelabelan otomatis dapat meningkatkan kecepatan klasifikasi rata-rata sebesar 79,13% dibandingkan dengan data manual, walaupun penurunan akurasi yang didapatkan dari keseluruhan eksperimen rata-rata sebesar 42,15%. Hal tersebut mengindikasikan bahwa pelabelan otomatis dapat meningkatkan pelabelan data secara cepat dan kuantitasnya tinggi meskipun secara akurasi belum bisa mengungguli baseline secara keseluruhan.