digilib@itb.ac.id +62 812 2508 8800

Diskusi di media sosial terkadang mengakibatkan munculnya beberapa kubu. Kubu yang sering muncul adalah Pro, Neutral, dan Contra. Namun, terdapat beberapa kubu lain yang juga muncul, yaitu Uncorrelated, dan Sarcasm. Tugas akhir ini bertujuan untuk membuat model klasifikasi teks yang dapat menganalisis hubungan antara tweet dan retweet pada suatu diskusi untuk mendeteksi kubu, yang hasilnya dapat digunakan untuk analisis kecenderungan arah diskusi. Terdapat dua pendekatan arsitektur yang digunakan, yaitu shallow learning dan deep learning. Algoritma klasifikasi yang digunakan pada arsitektur shallow learning adalah SVM, XGBoost, dan CatBoost. BERT, dan XLMRoBERTa digunakan sebagai algoritma embedding yang digunakan pada arsitektur deep learning. BERT yang digunakan adalah model yang dikembangkan oleh Willie, dkk (2020). XLMRoBERTa yang digunakan adalah model yang dikembangkan oleh Barbieri, dkk (2021). Selain itu, terdapat model pralatih FastText dan Word2Vec yang digunakan sebagai algoritma embedding dan lapisan embedding. Model pralatih FastText dan Word2Vec dikembangkan menggunakan data idwiki dump. Terdapat dua jenis teknik fine tuning yang digunakan pada tugas akhir ini, yaitu melakukan fine tuning untuk setiap epoch, dan membekukan parameter weight sebanyak lima epoch pertama, kemudian melakukan fine tuning pada epoch sisanya. Sebanyak 6650 data Twitter digunakan pada penelitian ini. Eksperimen dilakukan dengan mengubah konfigurasi arsitektur yang digunakan sehingga didapatkan konfigurasi terbaik. Berdasarkan eksperimen yang dilakukan, model terbaik yang berhasil diperoleh menggunakan XLMRoBERTa sebagai lapisan embedding, BiLSTM sebagai RNN layer, teknik fine tuning dengan membekukan parameter lapisan embedding pada lima epoch pertama, dan data latih yang digunakan mengandung emoji dan tidak memiliki label Uncorrelated dan Sarcasm. Model dengan konfigurasi tersebut memiliki nilai f1 score sebesar 0.597633, dan berdasarkan analisis kualitatif yang dilakukan model cenderung memprediksi label Neutral, dan cukup baik dalam mendeteksi Pro dan Contra. Namun, model tidak dapat mendeteksi konteks atau membedakan Neutral dan Uncorrelated, dan tidak dapat mendeteksi unsur sarkasme.