digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flipbook Dessy Rondang Monaomi

Pemrosesan bahasa alami telah berkembang pesat, terutama dalam hal representasi dan pemetaan makna kata. Embedding teks menjadi metode utama dalam merepresentasikan kata ke dalam ruang vektor yang dapat dipahami oleh komputer. Namun, tantangan utama yang dihadapi dalam bidang ini adalah bagaimana mengubah kembali representasi vektor tersebut ke dalam teks yang bermakna. Dalam rangka mengatasi tantangan ini, penelitian ini berfokus pada tugas reverse dictionary dan definition modeling, yang bertujuan untuk menghubungkan representasi kata dalam bentuk vektor dengan definisi bahasa alami. Penelitian ini menggunakan dataset dari Comparing Dictionaries and Word Embeddings (CODWOE) yang diselenggarakan dalam SemEval 2022. Dataset ini berisi pasangan kata dan definisi dalam berbagai bahasa, termasuk bahasa Inggris, Prancis, Rusia, Italia, dan Spanyol. Karena data yang digunakan adalah pasangan kata dan definisi, maka digunakan model multi tugas yang dapat memahami data menggunakan kedua data. Dalam penelitian ini memodifikasi model multitask berbasis Transformer menggunakan beberapa model berbasis pretrained large language model (LLM) untuk meningkatkan akurasi model dalam tugas reverse dictionary dan definition modeling dan menyelesaikan masalah keterbatasan data. Model LLM yang digunakan dalam penelitian ini adalah T5, mDeBERTa dan GPT-2. Hasil eksperimen menunjukkan bahwa model T5-Base unggul dalam tugas definition modeling, sementara GPT-2 lebih baik dalam tugas reverse dictionary. Namun, meskipun T5-Base memiliki performa tinggi dalam metrik evaluasi, hasil definisi yang dihasilkan masih memiliki kelemahan, seperti kurangnya variasi definisi, pengulangan struktur kalimat, serta kurangnya keterkaitan semantik antara kata dan definisi. Oleh karena itu, penelitian ini memberikan beberapa rekomendasi, seperti optimalisasi hyperparameter, penggunaan dataset yang lebih beragam, serta eksplorasi model pretrained yang lebih besar.