digilib@itb.ac.id +62 812 2508 8800

Parafrasa adalah teknik pengolahan informasi dengan mengubah bentuk kalimat tanpa merubah makna dari kalimat asalnya. Sistem pembangkitan parafrasa secara otomatis untuk Bahasa Indonesia saat ini belum banyak dikembangkan. Salah satu sistem yang telah dikembangkan menggunakan pendekatan berbasis aturan, namun penggunaannya masih terbatas pada bentuk-bentuk kalimat yang telah didefinisikan aturannya. Penelitian ini menggunakan pendekan pembelajaran mesin tanpa supervisi dengan algoritma Simulated Annealing yang diadaptasi dari sistem Unsupervised Paraphrasing by Simulated Annealing. Kandidat parafrasa dibangkitkan dengan melakukan penyuntingan lokal. Penentuan kandidat yang diterima dilakukan berdasarkan nilai fungsi objektif yang merupakan kombinasi linear dari skor kemiripan semantik, keberagaman ekspresi bahasa, serta kefasihan. Adaptasi dilakukan dengan mengubah resource yang spesifik terhadap bahasa agar dapat diimplementasikan untuk Bahasa Indonesia. Resource tersebut di antaranya model bahasa untuk kalkulasi skor kefasihan, kamus, embedding, dan daftar stopword yang digunakan untuk mengekstraksi kata kunci. Selain mengadaptasi algoritma UPSA, penelitian ini juga melakukan modifikasi dengan mengubah implementasi Hill Climbing pada penentuan kata sisipan untuk memperoleh N kata terbaik pada pembangkitan kandidat dan menggunakan tesaurus untuk memperoleh sinonim dari kata yang akan disunting. Berdasarkan hasil eksperimen, diperoleh bahwa algoritma dengan modifikasi menggunakan tesaurus memperoleh hasil terbaik dari segi jumlah kalimat yang berhasil didapatkan parafrasanya maupun dari segi kemiripan dengan kalimat asal, dibandingkan dengan adaptasi UPSA tanpa modifikasi dan modifikasi pengubahan implementasi Hill Climbing.