Pemrosesan bahasa alami telah berkembang pesat, terutama dalam hal representasi
dan pemetaan makna kata. Embedding teks menjadi metode utama dalam
merepresentasikan kata ke dalam ruang vektor yang dapat dipahami oleh komputer.
Namun, tantangan utama yang dihadapi dalam bidang ini adalah bagaimana mengubah
kembali representasi vektor tersebut ke dalam teks yang bermakna. Dalam
rangka mengatasi tantangan ini, penelitian ini berfokus pada tugas reverse dictionary
dan definition modeling, yang bertujuan untuk menghubungkan representasi kata
dalam bentuk vektor dengan definisi bahasa alami.
Penelitian ini menggunakan dataset dari Comparing Dictionaries and Word Embeddings
(CODWOE) yang diselenggarakan dalam SemEval 2022. Dataset ini
berisi pasangan kata dan definisi dalam berbagai bahasa, termasuk bahasa Inggris,
Prancis, Rusia, Italia, dan Spanyol. Karena data yang digunakan adalah pasangan
kata dan definisi, maka digunakan model multi tugas yang dapat memahami data
menggunakan kedua data.
Dalam penelitian ini memodifikasi model multitask berbasis Transformer menggunakan
beberapa model berbasis pretrained large language model (LLM) untuk
meningkatkan akurasi model dalam tugas reverse dictionary dan definition modeling
dan menyelesaikan masalah keterbatasan data. Model LLM yang digunakan dalam
penelitian ini adalah T5, mDeBERTa dan GPT-2.
Hasil eksperimen menunjukkan bahwa model T5-Base unggul dalam tugas definition
modeling, sementara GPT-2 lebih baik dalam tugas reverse dictionary. Namun,
meskipun T5-Base memiliki performa tinggi dalam metrik evaluasi, hasil definisi
yang dihasilkan masih memiliki kelemahan, seperti kurangnya variasi definisi,
pengulangan struktur kalimat, serta kurangnya keterkaitan semantik antara kata
dan definisi. Oleh karena itu, penelitian ini memberikan beberapa rekomendasi,
seperti optimalisasi hyperparameter, penggunaan dataset yang lebih beragam, serta
eksplorasi model pretrained yang lebih besar.
Perpustakaan Digital ITB