digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Deteksi parafrasa adalah tugas klasifikasi dalam pemrosesan bahasa alami dengan tujuan untuk menentukan dua kalimat merupakan parafrasa atau tidak. Abstract Meaning Representation (AMR) merupakan sebuah representasi semantik kalimat yang dapat merepresentasikan berbagai kalimat dengan sintaksis yang berbeda namun memiliki arti semantik yang sama, melalui sebuah graf AMR isomorfik. Dengan karakteristik ini, AMR menjadi pilihan yang cocok untuk digunakan dalam deteksi parafrasa. Model deteksi parafrasa bahasa Indonesia pada penelitian sebelumnya menunjukkan hasil yang belum memuaskan dengan skor F1 sebesar 0,682 pada data validasi, dibandingkan dengan bahasa Inggris yang mencapai skor F1 sebesar 0,900. Kekurangan ini disebabkan oleh model deteksi parafrasa bahasa Indonesia yang hanya menggunakan fitur berbasis skor kesamaan, sementara penelitian terkait bahasa Inggris menggunakan fitur berbasis Latent Semantic Analysis (LSA) yang dikombinasikan dengan AMR. Tugas Akhir ini bertujuan untuk membandingkan model yang dilatih dengan fitur berbasis skor kesamaan dan fitur berbasis LSA. Model yang digunakan dalam penelitian ini adalah Support Vector Machine, XGBoost, Random Forest, dan LightGBM. Untuk mengatasi kekurangan pada penelitian sebelumnya, dilakukan reimplementasi penelitian Issa dkk., (2018) untuk diterapkan pada kalimat bahasa Indonesia. Eksperimen pertama menguji pengaruh penambahan dataset Paraphrase Adversaries from Word Scrambling pada validasi skor F1, yang menunjukkan bahwa dataset tambahan menambah noise dan menyulitkan model mempelajari pola. Eksperimen kedua menguji fitur berbasis skor kesamaan, sementara eksperimen ketiga menguji fitur berbasis LSA. Diperoleh hasil, model XGBoost dengan fitur jaccard score dari representasi TF mencapai skor F1 validasi terbaik sebesar 0,685, skor F1 0,683 untuk data uji terjemahan otomatis, dan skor F1 0,670 untuk data uji terjemahan manual. Kombinasi fitur berbasis LSA dengan AMR mempunyai kinerja F1 validasi yang lebih rendah dari fitur berbasis skor kesamaan dalam deteksi parafrasa bahasa Indonesia.