digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Ridwan Faturrahman
PUBLIC Alice Diniarti

Konstruksi taksonomi otomatis merupakan proses algoritma untuk membentuk graf taksonomi dari dokumen. Taksonomi merupakan sekumpulan konsep terorganisir yang digunakan untuk mengatur informasi. Taksonomi memiliki peran dalam manajemen informasi, pencarian informasi, pemahaman kueri, inferensi teks dan textual entailment. Saat ini penelitian konstruksi taksonomi otomatis Indonesia masih sedikit. Selain itu pengembangan gold standard dataset untuk mengembangkan konstruksi taksonomi otomatis masih minim. Kontruksi taksonomi otomatis pada bahasa Indonesia dapat diterapkan menggunakan pre-trained language model untuk bahasa Indonesia yaitu word embedding dari FastText Indonesia dan ekstraksi fitur dari IndoBERT. Konstruksi taksonomi otomatis berfokus pada level kata berjenis nomina. Pengimplementasiannya menggunakan tiga subtask utama yaitu ekstraksi istilah, klasifikasi relasi dan organisasi taksonomi. Ekstraksi istilah menggunakan POS Tagger. Klasifikasi Relasi membandingkan empat arsitektur deep learning yaitu arsitektur model Multi Task Learning, Siamese Network Order Embedding, HypeNet, dan LexNet. Dan pada tahap organisasi taksonomi, dibandingkan empat algoritma organisasi taksonomi yaitu NoCyc, DMST, MaxTransGraph, MaxTransForest. Pada hasil eksperimen klasifikasi relasi, model HypeNet dengan Second-to-last Hidden Layer IndoBERT memiliki nilai F1-score yang paling tinggi sebesar 0.9179. Sedangkan pada hasil eksperimen organisasi taksonomi, model LexNet dengan multi klasifikasi kelas hiponim, kohiponim, dan non-hiponimkohiponim, dengan menggunakan organisasi taksonomi MaxTransForest memiliki nilai F1-score tertinggi dengan nilai 0.7014.