Perpustakaan Digital - Digilib ITB

SEMANTIC TEXTUAL SIMILARITY (STS) UNTUK TEKS BAHASA INDONESIA MENGGUNAKAN RECURRENT NEURAL NETWORK

231 views

Penulis	:	Ahmad Izzan [13516116]
Kontributor / Dosen Pembimbing	:	Dr.Eng. Ayu Purwarianti, S.T., M.T.
Jenis Koleksi	:	Tugas Akhir
Tahun Terbit	:
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:	Engineering & allied operations
Kata Kunci	:	Semantic Textual Similarity, Recurrent Neural Network.
Sumber	:
Staf Input/Edit	:	Alice Diniarti
File	:	1 file
Tanggal Input	:	26 Jun 2020

ABSTRAK Ahmad Izzan

PUBLIC Open In Flip Book Alice Diniarti

Semantic Textual Similarity (STS) adalah suatu bidang dalam pemrosesan bahasa alami yang melakukan prediksi kesamaan semantik antara pasangan teks. Tugas akhir ini berfokus pada permasalahan STS untuk teks berbahasa Indonesia. STS dilakukan dengan menggunakan pendekatan model Recurrent Neural Network (RNN) yang didukung oleh penelitian terkait tentang efektivitas RNN pada STS. Beberapa RNN yang diuji pada eksperimen tugas akhir ini adalah Long Short-Term Memory, Gated Recurrent Unit, Bidirectional Long Short-Term Memory, dan Bidirectional Gated Recurrent Unit. Dalam membangun model prediksi STS berbahasa Indonesia ini, digunakan Fasttext word embedding yang telah dilatih dengan korpus Wikipedia berbahasa Indonesia sebesar 402 juta kata. Solusi yang dikembangkan berusaha untuk menangkap semantik dari teks guna memaksimalkan performa dari model. Eksperimen dilakukan menggunakan dataset perlombaan STS berbahasa Inggris tahun 2012-2016 yang ditranslasikan ke bahasa Indonesia menggunakan layanan Google Translate dengan hasil berupa 12901 sampel data. Dari hasil eksperimen, diperoleh model RNN terbaik yaitu Bidirectional Long Short-Term Memory dengan nilai pearson correlation sebesar 0.698 dan spearman correlation sebesar 0.675.

Perpustakaan Digital ITB

SEMANTIC TEXTUAL SIMILARITY (STS) UNTUK TEKS BAHASA INDONESIA MENGGUNAKAN RECURRENT NEURAL NETWORK

Artikel Terkait