Semantic Textual Similarity (STS) adalah sebuah task dalam pemrosesan bahasa
alami yang digunakan untuk menentukan apakah dua kalimat memiliki makna
yang sama. STS merupakan komponen yang penting dalam membantu
menyelesaikan masalahmasalah pemrosesan bahasa alamai yang lain seperti
semantic search, summarization, question answering, deteksi plagiarisme dan
ekstraksi informasi. Salah satu arsitektur yang menjadi fokus tugas akhir ini yang
dapat digunakan untuk menyelesaikan task STS adalah Siamese Neural Network
(SNN).
Salah satu komponen penting dalam model STS adalah encoder. Encoder
berfungsi mengubah kalimat menjadi vektor numerik. Pada tugas akhir ini
dilakukan eksperimen terhadap beberapa jenis encoder yang digunakan oleh SNN.
Selain itu, dilakukan pula eksperimen pada komponenkomponen lain dari SNN
yakni pooling dan objective function.
Eksperimen dilakukan menggunakan dataset yang diperoleh dari Prosa.ai yang
berisi kumpulan kalimat frequently asked questions (FAQ). Dari hasil eksperimen,
diperoleh model STS terbaik dengan f1score 0,9723 yang mengungguli kinerja
model baseline. Model tersebut adalah SNN dengan encoder IndoBERT, pooling
MEAN + CLS dan regression objective function.