digilib@itb.ac.id +62 812 2508 8800

Kemiripan semantik antara dua potongan teks (STS: Semantic Textual Similarity) dapat direpresentasikan dengan sebuah angka. STS bertujuan mengukur tingkat kesamaan semantik pada pasangan potongan teks. Namun, representasi angka ternyata menimbulkan asumsi masing-masing untuk memberikan arti pada kemiripan kalimat, tidak ada penjelasan yang lebih spesifik berdasarkan angka kemiripan tersebut. Kebutuhan yang muncul dari permasalahan ini membutuhkan penjelasan mengapa kedua kalimat dikatakan mirip atau sebaliknya. Interpretable Semantic Textual Similarity (iSTS) merupakan task yang menjawab kebutuhan tersebut, untuk menjelaskan kemiripan semantik dua kalimat. Keluaran dari iSTS berupa pasangan-pasangan chunk yang dianggap memiliki hubungan dengan skor dan label. Skor berupa angka 0 hingga 5, sedangkan label berupa EQUI, SPE1, SPE2, OPPO, REL, SIMI, dan NOALI. Namun, korpus iSTS saat ini masih terbatas pada beberapa bahasa saja, tidak termasuk bahasa Indonesia. Tujuan tugas akhir ini adalah menghasilkan model iSTS berdasarkan korpus bahasa Indonesia dan juga korpus tersebut dibangun pada tugas akhir ini. Dalam tugas akhir ini, diadaptasi dua teknik iSTS terbaik saat ini untuk bahasa Inggris yaitu VRep dan UWB. Teknik VRep menggunakan WordNet dalam merepresentasikan semantik kata, sedangkan UWB menggunakan word embeeding. Kedua teknik ini menggunakan tahap yang secara umum sama yaitu preproses, ekstraksi fitur, lalu klasifikasi. Perbedaan kedua teknik ini terletak pada preproses yang sedikit berbeda dan metode ekstraksi fitur yang masingmasing unik. Adaptasi VRep dan UWB pada tugas akhir ini dilakukan pada tahap preproses, ekstraksi fitur, dan klasifikasi dengan empat teknik pembelajaran mesin yang digunakan decision tree, SVM, random forest, dan multilayer perceptron. Berdasarkan evaluasi F1 pada aspek type, score, dan type+score, didapatkan model iSTS terbaik pada teknik VRep adalah SVM untuk aspek type dengan F1 test sebesar 0.7037, decision tree untuk aspek score dengan F1 test 0.8770, dan SVM untuk aspek score+type dengan F1 test 0.6821. Sedangkan pada UWB didapatkan model iSTS decision tree terbaik pada aspek type dengan F1 test 0.6869, desicion tree pada aspek score dengan F1 test 0.8886, dan SVM untuk aspek type+score dengan F1 test 0.6821. Pada tugas akhir ini, VRep menjadi model terbaik untuk aspek type dan score, UWB untuk aspek type+score.