digilib@itb.ac.id +62 812 2508 8800

Abstrak
PUBLIC karya

Ekstraksi informasi adalah sebuah task dalam pemrosesan bahasa alami yang bertujuan untuk mengekstrak informasi dari teks yang tidak terstruktur menjadi teks terstruktur. Informasi yang diekstrak tersebut berupa entitas dan hubungan antar entitas dari teks tersebut. Pada saat ini, pengembangan klasifikasi relasi dengan pendekatan pembelajaran mesin khususnya deep neural network (DNN). DNN memiliki hambatan apabila data yang tersedia untuk model pelatihan untuk klasifikasi relasi pada domain terbatas. Transfer learning adalah salah satu solusi untuk permasalahan jumlah data yang sedikit dengan membantu pelatihan model di domain baru dengan model yang telah ada dari domain sumber yang mirip. DNN yang diuji pada eksperimen tugas akhir ini adalah Convolutional Neural Network (CNN) dengan teknik instanced-based transfer learning. Instance based transfer learning adalah metode transfer learning yang menambahkan instance dari domain sumber ke dalam domain target dengan penyesuaian bobot. Dalam membangun model, dibutuhkan pemilihan dataset yang telah tersedia dan anotasi manual untuk domain dari datataset tersebut. Dataset yang dipilih adalah dataset SemEval2010 task 8. Jumlah tipe relasi pada dataset ini ada 9. Dataset dibagi menjadi 12 domain berdasarkan topik dari setiap masukan kalimat. Setelah itu, dataset diubah ke dalam bentuk vektor numerik sebagai representasi kata dari setiap instances dengan menggunakan word embedding dan position embedding. Baseline penelitian tugas akhir yakni klasifikasi relasi tanpa transfer learning Bidirectional Long-short Term Memory (BiLSTM). Domain sumber yang digunakan adalah domain Story dan News sedangkan domain targetnya Techonology dengan jumlah data latih 500 dan data uji 100, serta domain Politics dengan jumlah data latih 240 dan data uji 60 buah. Dari hasil eksperimen, model dengan pendekatan instance based transfer learning berhasil meningkatkan kinerja dari model domain target yakni skor akurasi 34.36% dan meningkatkan skor F1 96.21% lebih tinggi dari model pelatihan dengan domain target saja