Diskusi di media sosial terkadang mengakibatkan munculnya beberapa kubu.
Kubu yang sering muncul adalah Pro, Neutral, dan Contra. Namun, terdapat
beberapa kubu lain yang juga muncul, yaitu Uncorrelated, dan Sarcasm. Tugas
akhir ini bertujuan untuk membuat model klasifikasi teks yang dapat menganalisis
hubungan antara tweet dan retweet pada suatu diskusi untuk mendeteksi kubu,
yang hasilnya dapat digunakan untuk analisis kecenderungan arah diskusi.
Terdapat dua pendekatan arsitektur yang digunakan, yaitu shallow learning dan
deep learning. Algoritma klasifikasi yang digunakan pada arsitektur shallow
learning adalah SVM, XGBoost, dan CatBoost. BERT, dan XLMRoBERTa
digunakan sebagai algoritma embedding yang digunakan pada arsitektur deep
learning. BERT yang digunakan adalah model yang dikembangkan oleh Willie,
dkk (2020). XLMRoBERTa yang digunakan adalah model yang dikembangkan
oleh Barbieri, dkk (2021). Selain itu, terdapat model pralatih FastText dan
Word2Vec yang digunakan sebagai algoritma embedding dan lapisan embedding.
Model pralatih FastText dan Word2Vec dikembangkan menggunakan data idwiki
dump. Terdapat dua jenis teknik fine tuning yang digunakan pada tugas akhir ini,
yaitu melakukan fine tuning untuk setiap epoch, dan membekukan parameter
weight sebanyak lima epoch pertama, kemudian melakukan fine tuning pada
epoch sisanya. Sebanyak 6650 data Twitter digunakan pada penelitian ini.
Eksperimen dilakukan dengan mengubah konfigurasi arsitektur yang digunakan
sehingga didapatkan konfigurasi terbaik. Berdasarkan eksperimen yang dilakukan,
model terbaik yang berhasil diperoleh menggunakan XLMRoBERTa sebagai
lapisan embedding, BiLSTM sebagai RNN layer, teknik fine tuning dengan
membekukan parameter lapisan embedding pada lima epoch pertama, dan data
latih yang digunakan mengandung emoji dan tidak memiliki label Uncorrelated
dan Sarcasm. Model dengan konfigurasi tersebut memiliki nilai f1 score sebesar
0.597633, dan berdasarkan analisis kualitatif yang dilakukan model cenderung
memprediksi label Neutral, dan cukup baik dalam mendeteksi Pro dan Contra.
Namun, model tidak dapat mendeteksi konteks atau membedakan Neutral dan
Uncorrelated, dan tidak dapat mendeteksi unsur sarkasme.