Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Deteksi parafrasa adalah tugas klasifikasi dalam pemrosesan bahasa alami dengan
tujuan untuk menentukan dua kalimat merupakan parafrasa atau tidak. Abstract
Meaning Representation (AMR) merupakan sebuah representasi semantik kalimat
yang dapat merepresentasikan berbagai kalimat dengan sintaksis yang berbeda
namun memiliki arti semantik yang sama, melalui sebuah graf AMR isomorfik.
Dengan karakteristik ini, AMR menjadi pilihan yang cocok untuk digunakan dalam
deteksi parafrasa. Model deteksi parafrasa bahasa Indonesia pada penelitian
sebelumnya menunjukkan hasil yang belum memuaskan dengan skor F1 sebesar
0,682 pada data validasi, dibandingkan dengan bahasa Inggris yang mencapai skor
F1 sebesar 0,900. Kekurangan ini disebabkan oleh model deteksi parafrasa bahasa
Indonesia yang hanya menggunakan fitur berbasis skor kesamaan, sementara
penelitian terkait bahasa Inggris menggunakan fitur berbasis Latent Semantic
Analysis (LSA) yang dikombinasikan dengan AMR. Tugas Akhir ini bertujuan
untuk membandingkan model yang dilatih dengan fitur berbasis skor kesamaan dan
fitur berbasis LSA. Model yang digunakan dalam penelitian ini adalah Support
Vector Machine, XGBoost, Random Forest, dan LightGBM. Untuk mengatasi
kekurangan pada penelitian sebelumnya, dilakukan reimplementasi penelitian Issa
dkk., (2018) untuk diterapkan pada kalimat bahasa Indonesia. Eksperimen pertama
menguji pengaruh penambahan dataset Paraphrase Adversaries from Word
Scrambling pada validasi skor F1, yang menunjukkan bahwa dataset tambahan
menambah noise dan menyulitkan model mempelajari pola. Eksperimen kedua
menguji fitur berbasis skor kesamaan, sementara eksperimen ketiga menguji fitur
berbasis LSA. Diperoleh hasil, model XGBoost dengan fitur jaccard score dari
representasi TF mencapai skor F1 validasi terbaik sebesar 0,685, skor F1 0,683
untuk data uji terjemahan otomatis, dan skor F1 0,670 untuk data uji terjemahan
manual. Kombinasi fitur berbasis LSA dengan AMR mempunyai kinerja F1
validasi yang lebih rendah dari fitur berbasis skor kesamaan dalam deteksi parafrasa
bahasa Indonesia.