Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Kepaduan setiap kata atau frasa pada teks instruksional sangat penting karena
kesalahan pemilihan kata atau frasa dapat menghasilkan hasil akhir yang berbeda.
Tugas akhir ini dikembangkan model masing-masing untuk mengidentifikasi
kepaduan kata atau frasa pada teks instruksional dalam task klasifikasi dan regresi
sama seperti yang digunakan pada SemEval 2022 task 7. Kepaduan kata diuji
dengan melihat seberapa cocok sebuah kata jika disubstitusi dalam teks
instruksional berdasarkan konteks sekitar, mirip dengan teknik pelatihan pada
BERT (masked language model). Untuk meningkatkan kinerja, dikembangkan
model ensemble menggunakan metode boosting dan DeBERTaV3, yang
merupakan peningkatan dari BERT, sebagai weak learner. Kinerja model
dibandingkan dengan model-model terbaik pada SemEval 2022 task 7 dan model
akan dianalisis kelebihan serta kekurangannya.
Metode boosting adalah metode yang melatih beberapa model secara iteratif dan
sekuensial yang berfokus pada perbaikan prediksi yang salah dari iterasi
sebelumnya. Dalam konteks tugas akhir ini, model dikembangkan dengan dua
modifikasi atau pengembangan dari algoritma Adaboost, yaitu BoostingBERT dan
AdaBoost.RT. BoostingBERT digunakan untuk membuat model yang
menyelesaikan task klasifikasi dan AdaBoost.RT digunakan untuk membuat model
yang menyelesaikan task regresi. Pengimplementasian kedua algoritma tersebut
menggunakan DeBERTaV3 sebagai weak learner. Selain itu, dilakukan juga
persiapan data dan penanganan atas isu imbalance data pada himpunan data
training yang disediakan oleh SemEval 2022.
Model yang dikembangkan berhasil meraih urutan keempat baik dalam tugas
regresi maupun klasifikasi pada kompetisi SemEval 2022 task 7. Pada tugas
klasifikasi, model ini mencapai nilai akurasi sebesar 0.6424, menunjukkan
kemampuannya untuk mengklasifikasikan kepaduan kata atau frasa dengan tingkat
akurasi yang cukup tinggi. Sementara itu, pada tugas regresi, model ini mencapai
nilai korelasi spearman’s rank sebesar 0.765. Namun, ukuran akhir model cukup
besar mencapai 9.8 GB untuk masing-masing task . Selain itu, model mengalami
kesulitan dalam memprediksi label neutral pada task klasifikasi dan data dengan
nilai rendah pada task regresi.