Semantic Textual Similarity (STS) adalah suatu bidang dalam pemrosesan bahasa
alami yang melakukan prediksi kesamaan semantik antara pasangan teks. Tugas
akhir ini berfokus pada permasalahan STS untuk teks berbahasa Indonesia. STS
dilakukan dengan menggunakan pendekatan model Recurrent Neural Network
(RNN) yang didukung oleh penelitian terkait tentang efektivitas RNN pada STS.
Beberapa RNN yang diuji pada eksperimen tugas akhir ini adalah Long Short-Term
Memory, Gated Recurrent Unit, Bidirectional Long Short-Term Memory, dan
Bidirectional Gated Recurrent Unit. Dalam membangun model prediksi STS
berbahasa Indonesia ini, digunakan Fasttext word embedding yang telah dilatih
dengan korpus Wikipedia berbahasa Indonesia sebesar 402 juta kata. Solusi yang
dikembangkan berusaha untuk menangkap semantik dari teks guna
memaksimalkan performa dari model.
Eksperimen dilakukan menggunakan dataset perlombaan STS berbahasa Inggris
tahun 2012-2016 yang ditranslasikan ke bahasa Indonesia menggunakan layanan
Google Translate dengan hasil berupa 12901 sampel data. Dari hasil eksperimen,
diperoleh model RNN terbaik yaitu Bidirectional Long Short-Term Memory dengan
nilai pearson correlation sebesar 0.698 dan spearman correlation sebesar 0.675.