digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Semantic Textual Similarity (STS) adalah bidang penelitian yang bertujuan mengukur kesamaan dan hubungan antar elemen teks, dari kata hingga dokumen. Dalam konteks lintas bahasa, STS mengukur kesamaan semantik tanpa bergantung pada bahasa yang digunakan. Pada data artikel berita lintas bahasa (Chen dkk., 2022), banyak model yang telah dibangun dengan memanfaatkan model berbasis transformer dan menghasilkan kinerja yang baik, tetapi masih belum menyamai anotator manusia. Hal ini menunjukkan adanya ruang untuk pengembangan lebih lanjut, yang dalam penelitian ini dilakukan dengan pendekatan ensemble learning. Pada penelitian ini, dibangun model utama yang terdiri atas 1 model baseline dan 6 model variasi dari model baseline. Semua kombinasi dari ketujuh model utama, yang berjumlah 127 kombinasi, digunakan untuk membangun model ensemble dengan metode weighted average dan stacking. Metode weighted average menggunakan kinerja setiap model utama pada data validasi sebagai bobot masing-masing model, sementara metode stacking memanfaatkan hasil prediksi model utama dan label pada data validasi untuk melatih Support Vector Regressor (SVR) sebagai meta-model yang digunakan untuk menghasilkan prediksi metode stacking. Tahap eksperimen menunjukkan bahwa metode weighted average dan stacking meningkatkan kinerja model berupa peningkatan nilai koefisien korelasi pearson sebesar +0.0316 dan +0.0277 secara berturut-turut. Weighted average lebih unggul secara keseluruhan tetapi kurang optimal pada label ekstrem (1.0 dan 4.0), sementara stacking lebih baik pada label ekstrem namun memiliki penyimpangan lebih besar pada kasus lain.