digilib@itb.ac.id +62 812 2508 8800

Tingkat kompleksitas dari kata atau frasa pada suatu kalimat merupakan salah satu cara mengetahui tingkat literasi dari teks bacaan. Informasi mengenai tingkat literasi dari suatu teks dapat digunakan untuk mengetahui kompleksitas dari suatu korpus. Kompleksitas suatu korpus tentu dapat mempengaruhi performa dari kecerdasan buatan untuk memahami konteks dari suatu teks. Tugas akhir ini bertujuan untuk membuat model yang dapat memprediksi nilai kompleksitas dari suatu kata (subtask 1) atau frasa (subtask 2) yang muncul pada suatu kalimat. Pada penelitian yang dilakukan sebelumnya pada kompetisi SemEval 2021 task 1, BERT dan RoBERTa merupakan dua contextual pretrained embedding yang berhasil mendapatkan performa paling bagus pada kedua subtask. Penelitian pada tugas akhir ini berfokus pada penambahan fitur kata dan kalimat pada model berbasis contextual pretrained embedding dan model yang berbasis static embedding untuk meningkatkan performa dari kompetisi sebelumnya. Berdasarkan eksperimen yang dilakukan, penggunaan fitur kata dan kalimat terbukti dapat meningkatkan performa dari model dan hasil dari stacking. Hasil model stacking terbaik berhasil menempati peringkat pertama pada subtask 1 dengan nilai pearson 0.7887. Pada subtask 2, berhasil menempati peringkat kedua dengan nilai pearson 0.8590. Berdasarkan analisa lebih lanjut, karakteristik dari model yang dibangun cenderung memprediksi kompleksitas kata atau frasa yang jarang digunakan lebih tinggi dibandingkan kata atau frasa yang sering digunakan.