Parafrasa adalah teknik pengolahan informasi dengan mengubah bentuk kalimat
tanpa merubah makna dari kalimat asalnya. Sistem pembangkitan parafrasa secara
otomatis untuk Bahasa Indonesia saat ini belum banyak dikembangkan. Salah satu
sistem yang telah dikembangkan menggunakan pendekatan berbasis aturan, namun
penggunaannya masih terbatas pada bentuk-bentuk kalimat yang telah didefinisikan
aturannya. Penelitian ini menggunakan pendekan pembelajaran mesin tanpa
supervisi dengan algoritma Simulated Annealing yang diadaptasi dari sistem
Unsupervised Paraphrasing by Simulated Annealing. Kandidat parafrasa
dibangkitkan dengan melakukan penyuntingan lokal. Penentuan kandidat yang
diterima dilakukan berdasarkan nilai fungsi objektif yang merupakan kombinasi
linear dari skor kemiripan semantik, keberagaman ekspresi bahasa, serta kefasihan.
Adaptasi dilakukan dengan mengubah resource yang spesifik terhadap bahasa agar
dapat diimplementasikan untuk Bahasa Indonesia. Resource tersebut di antaranya
model bahasa untuk kalkulasi skor kefasihan, kamus, embedding, dan daftar
stopword yang digunakan untuk mengekstraksi kata kunci. Selain mengadaptasi
algoritma UPSA, penelitian ini juga melakukan modifikasi dengan mengubah
implementasi Hill Climbing pada penentuan kata sisipan untuk memperoleh N kata
terbaik pada pembangkitan kandidat dan menggunakan tesaurus untuk memperoleh
sinonim dari kata yang akan disunting.
Berdasarkan hasil eksperimen, diperoleh bahwa algoritma dengan modifikasi
menggunakan tesaurus memperoleh hasil terbaik dari segi jumlah kalimat yang
berhasil didapatkan parafrasanya maupun dari segi kemiripan dengan kalimat asal,
dibandingkan dengan adaptasi UPSA tanpa modifikasi dan modifikasi pengubahan
implementasi Hill Climbing.
Perpustakaan Digital ITB