Perpustakaan Digital - Digilib ITB

KONSTRUKSI TAKSONOMI OTOMATIS MENGGUNAKAN PRE-TRAINED LANGUAGE MODEL UNTUK BAHASA INDONESIA

71 views

Penulis	:	Ridwan Faturrahman [13517150]
Kontributor / Dosen Pembimbing	:	Dr.Eng. Ayu Purwarianti, S.T., M.T.
Jenis Koleksi	:	Tugas Akhir
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	klasifikasi relasi, taksonomi, hiponim.
Sumber	:
Staf Input/Edit	:	Alice Diniarti
File	:	1 file
Tanggal Input	:	26 Sep 2021

ABSTRAK Ridwan Faturrahman

PUBLIC Alice Diniarti

Konstruksi taksonomi otomatis merupakan proses algoritma untuk membentuk graf taksonomi dari dokumen. Taksonomi merupakan sekumpulan konsep terorganisir yang digunakan untuk mengatur informasi. Taksonomi memiliki peran dalam manajemen informasi, pencarian informasi, pemahaman kueri, inferensi teks dan textual entailment. Saat ini penelitian konstruksi taksonomi otomatis Indonesia masih sedikit. Selain itu pengembangan gold standard dataset untuk mengembangkan konstruksi taksonomi otomatis masih minim. Kontruksi taksonomi otomatis pada bahasa Indonesia dapat diterapkan menggunakan pre-trained language model untuk bahasa Indonesia yaitu word embedding dari FastText Indonesia dan ekstraksi fitur dari IndoBERT. Konstruksi taksonomi otomatis berfokus pada level kata berjenis nomina. Pengimplementasiannya menggunakan tiga subtask utama yaitu ekstraksi istilah, klasifikasi relasi dan organisasi taksonomi. Ekstraksi istilah menggunakan POS Tagger. Klasifikasi Relasi membandingkan empat arsitektur deep learning yaitu arsitektur model Multi Task Learning, Siamese Network Order Embedding, HypeNet, dan LexNet. Dan pada tahap organisasi taksonomi, dibandingkan empat algoritma organisasi taksonomi yaitu NoCyc, DMST, MaxTransGraph, MaxTransForest. Pada hasil eksperimen klasifikasi relasi, model HypeNet dengan Second-to-last Hidden Layer IndoBERT memiliki nilai F1-score yang paling tinggi sebesar 0.9179. Sedangkan pada hasil eksperimen organisasi taksonomi, model LexNet dengan multi klasifikasi kelas hiponim, kohiponim, dan non-hiponimkohiponim, dengan menggunakan organisasi taksonomi MaxTransForest memiliki nilai F1-score tertinggi dengan nilai 0.7014.

Perpustakaan Digital ITB

KONSTRUKSI TAKSONOMI OTOMATIS MENGGUNAKAN PRE-TRAINED LANGUAGE MODEL UNTUK BAHASA INDONESIA

Artikel Terkait