Article Details

MODEL WORD2VEC DALAM KEDEKATAN SEMANTIK KATA

Oleh   Fathul Asrar Alfansuri [10113007]
Kontributor / Dosen Pembimbing : Prof. Marcus Wono Setya Budhi, Ph.D.;Dr. Masayu Leylia Khodra, S.T., M.T.;
Jenis Koleksi : S1-Tugas Akhir
Penerbit : FMIPA - Matematika
Fakultas : Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA)
Subjek :
Kata Kunci : Kedekatan semantik, word2vec, Natural Languange Processing, Artificial Neural Network, Fungsi Softmax, WordNet.
Sumber :
Staf Input/Edit : Dwi Ary Fuziastuti  
File : 1 file
Tanggal Input : 2019-10-09 10:05:10

Kedekatan semantik adalah topik yang masih menantang dalam Natural Language Processing. Thomas Mikolov memperkenalkan ide word2vec sebagai salah satu tolak ukur dalam menentukan kedekatan kata. Setiap kata direpresentasikan oleh sebuah vektor, dan sifat-sifat vektor tersebut akan menentukan kedekatan kata. Artificial Neural Network digunakan dalam menentukan vektor representasi tersebut. Dengan menggunakan fungsi softmax sebagai fungsi aktivasi pada output layer dan fungsi linear pada hidden layer, representasi vektor diperoleh dari bobot ANN sebagai hasil pembelajaran yang didasari oleh Stochastic Gradient Descent menggunakan data latih yang diberikan. Agar artikel dapat digunakan sebagai data latih, perlu dilakukan langkah praproses tokenisasi, penghapusan stopwords dan lematisasi terhadap artikel-artikel tersebut. Kemudian, setiap kata pada kamus diubah menjadi one-hot encoded vector. Dalam pembuatannya, word2vec dibangun dengan optimasi Negative Sampling untuk mereduksi jumlah komputasi yang dilakukan. Setelah model dibangun, model diuji ketepatannya dengan membandingkan hasil yang diperoleh dengan frekuensi kemunculan sebenarnya dan kedekatan menurut WordNet. Beberapa nilai parameter perlu dicari dalam memperoleh model terbaik yaitu ukuran parameter Negative Sampling, jumlah hidden neuron dan epoch maksimum. Proses konversi artikel menghasilkan data latih dengan jumlah kata yang lebih sedikit dibandingkan dengan artikel sebenarnya. Data latih yang dihasilkan memiliki 2279 kata unik dan 46916 pasang kata input-output. Persebaran frekuensi kata pada data latih memiliki ketimpangan sebesar 0,6099 dilihat dari indeks gini. Hasil pengujian menunjukkan bahwa model terbaik diperoleh dengan menggunakan parameter Negative Sampling k = 1, jumlah neuron pada hidden layer N sebanyak 350, dan epoch maksimum Em sebesar 100. Parameter tersebut menghasilkan model dengan ketepatan sebesar 32,16% bila dibandingkan dengan frekuensi kemunculan dan ketepatan sebesar 0,5927 jika dibandingkan dengan WordNet.