digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Ahmad Izzan
PUBLIC Alice Diniarti

Semantic Textual Similarity (STS) adalah suatu bidang dalam pemrosesan bahasa alami yang melakukan prediksi kesamaan semantik antara pasangan teks. Tugas akhir ini berfokus pada permasalahan STS untuk teks berbahasa Indonesia. STS dilakukan dengan menggunakan pendekatan model Recurrent Neural Network (RNN) yang didukung oleh penelitian terkait tentang efektivitas RNN pada STS. Beberapa RNN yang diuji pada eksperimen tugas akhir ini adalah Long Short-Term Memory, Gated Recurrent Unit, Bidirectional Long Short-Term Memory, dan Bidirectional Gated Recurrent Unit. Dalam membangun model prediksi STS berbahasa Indonesia ini, digunakan Fasttext word embedding yang telah dilatih dengan korpus Wikipedia berbahasa Indonesia sebesar 402 juta kata. Solusi yang dikembangkan berusaha untuk menangkap semantik dari teks guna memaksimalkan performa dari model. Eksperimen dilakukan menggunakan dataset perlombaan STS berbahasa Inggris tahun 2012-2016 yang ditranslasikan ke bahasa Indonesia menggunakan layanan Google Translate dengan hasil berupa 12901 sampel data. Dari hasil eksperimen, diperoleh model RNN terbaik yaitu Bidirectional Long Short-Term Memory dengan nilai pearson correlation sebesar 0.698 dan spearman correlation sebesar 0.675.