Perpustakaan Digital - Digilib ITB

DETEKSI PARAFRASA UNTUK PASANGAN KALIMAT BAHASA INDONESIA MENGGUNAKAN ABSTRACT MEANING REPRESENTATION DAN LATENT SEMANTIC ANALYSIS

128 views

Penulis	:	Faiz Muhammad Muflich [13517093]
Kontributor / Dosen Pembimbing	:	Dr. Masayu Leylia Khodra, S.T, M.T.
Jenis Koleksi	:	Tugas Akhir
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	deteksi parafrasa, Latent Semantic Analysis, Abstract Meaning Representation, XGBoost
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	19 Agu 2024

Dokumen Asli
Terbatas Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Deteksi parafrasa adalah tugas klasifikasi dalam pemrosesan bahasa alami dengan tujuan untuk menentukan dua kalimat merupakan parafrasa atau tidak. Abstract Meaning Representation (AMR) merupakan sebuah representasi semantik kalimat yang dapat merepresentasikan berbagai kalimat dengan sintaksis yang berbeda namun memiliki arti semantik yang sama, melalui sebuah graf AMR isomorfik. Dengan karakteristik ini, AMR menjadi pilihan yang cocok untuk digunakan dalam deteksi parafrasa. Model deteksi parafrasa bahasa Indonesia pada penelitian sebelumnya menunjukkan hasil yang belum memuaskan dengan skor F1 sebesar 0,682 pada data validasi, dibandingkan dengan bahasa Inggris yang mencapai skor F1 sebesar 0,900. Kekurangan ini disebabkan oleh model deteksi parafrasa bahasa Indonesia yang hanya menggunakan fitur berbasis skor kesamaan, sementara penelitian terkait bahasa Inggris menggunakan fitur berbasis Latent Semantic Analysis (LSA) yang dikombinasikan dengan AMR. Tugas Akhir ini bertujuan untuk membandingkan model yang dilatih dengan fitur berbasis skor kesamaan dan fitur berbasis LSA. Model yang digunakan dalam penelitian ini adalah Support Vector Machine, XGBoost, Random Forest, dan LightGBM. Untuk mengatasi kekurangan pada penelitian sebelumnya, dilakukan reimplementasi penelitian Issa dkk., (2018) untuk diterapkan pada kalimat bahasa Indonesia. Eksperimen pertama menguji pengaruh penambahan dataset Paraphrase Adversaries from Word Scrambling pada validasi skor F1, yang menunjukkan bahwa dataset tambahan menambah noise dan menyulitkan model mempelajari pola. Eksperimen kedua menguji fitur berbasis skor kesamaan, sementara eksperimen ketiga menguji fitur berbasis LSA. Diperoleh hasil, model XGBoost dengan fitur jaccard score dari representasi TF mencapai skor F1 validasi terbaik sebesar 0,685, skor F1 0,683 untuk data uji terjemahan otomatis, dan skor F1 0,670 untuk data uji terjemahan manual. Kombinasi fitur berbasis LSA dengan AMR mempunyai kinerja F1 validasi yang lebih rendah dari fitur berbasis skor kesamaan dalam deteksi parafrasa bahasa Indonesia.

Perpustakaan Digital ITB

DETEKSI PARAFRASA UNTUK PASANGAN KALIMAT BAHASA INDONESIA MENGGUNAKAN ABSTRACT MEANING REPRESENTATION DAN LATENT SEMANTIC ANALYSIS

Artikel Terkait