Tingkat kompleksitas dari kata atau frasa pada suatu kalimat merupakan salah satu
cara mengetahui tingkat literasi dari teks bacaan. Informasi mengenai tingkat
literasi dari suatu teks dapat digunakan untuk mengetahui kompleksitas dari suatu
korpus. Kompleksitas suatu korpus tentu dapat mempengaruhi performa dari
kecerdasan buatan untuk memahami konteks dari suatu teks. Tugas akhir ini
bertujuan untuk membuat model yang dapat memprediksi nilai kompleksitas dari
suatu kata (subtask 1) atau frasa (subtask 2) yang muncul pada suatu kalimat.
Pada penelitian yang dilakukan sebelumnya pada kompetisi SemEval 2021 task 1,
BERT dan RoBERTa merupakan dua contextual pretrained embedding yang
berhasil mendapatkan performa paling bagus pada kedua subtask. Penelitian pada
tugas akhir ini berfokus pada penambahan fitur kata dan kalimat pada model
berbasis contextual pretrained embedding dan model yang berbasis static
embedding untuk meningkatkan performa dari kompetisi sebelumnya.
Berdasarkan eksperimen yang dilakukan, penggunaan fitur kata dan kalimat
terbukti dapat meningkatkan performa dari model dan hasil dari stacking. Hasil
model stacking terbaik berhasil menempati peringkat pertama pada subtask 1
dengan nilai pearson 0.7887. Pada subtask 2, berhasil menempati peringkat kedua
dengan nilai pearson 0.8590. Berdasarkan analisa lebih lanjut, karakteristik dari
model yang dibangun cenderung memprediksi kompleksitas kata atau frasa yang
jarang digunakan lebih tinggi dibandingkan kata atau frasa yang sering digunakan.