Perpustakaan Digital - Digilib ITB

PRETRAINED LARGE LANGUAGE MODEL UNTUK TUGAS DEFINITION MODELING DAN REVERSE DICTIONARY

650 views

Save At List

Penulis	:	Irfan Nugraha [23522004]
Kontributor / Dosen Pembimbing	:	Dr. Judhi Santoso, M.Sc. Dr. Fariska Zakhralativa Ruskanda, S.T., M.T.
Jenis Koleksi	:	Tesis
Tahun Terbit	:	2024
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	Reverse Dictionary, Definition Modeling, Pretrained Large Language Model, Transformer, Pemrosesan Bahasa Alami, Model Multi Tugas
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	03 Feb 2025

Dokumen Asli

PUBLIC Open In Flipbook Dessy Rondang Monaomi

Pemrosesan bahasa alami telah berkembang pesat, terutama dalam hal representasi dan pemetaan makna kata. Embedding teks menjadi metode utama dalam merepresentasikan kata ke dalam ruang vektor yang dapat dipahami oleh komputer. Namun, tantangan utama yang dihadapi dalam bidang ini adalah bagaimana mengubah kembali representasi vektor tersebut ke dalam teks yang bermakna. Dalam rangka mengatasi tantangan ini, penelitian ini berfokus pada tugas reverse dictionary dan definition modeling, yang bertujuan untuk menghubungkan representasi kata dalam bentuk vektor dengan definisi bahasa alami. Penelitian ini menggunakan dataset dari Comparing Dictionaries and Word Embeddings (CODWOE) yang diselenggarakan dalam SemEval 2022. Dataset ini berisi pasangan kata dan definisi dalam berbagai bahasa, termasuk bahasa Inggris, Prancis, Rusia, Italia, dan Spanyol. Karena data yang digunakan adalah pasangan kata dan definisi, maka digunakan model multi tugas yang dapat memahami data menggunakan kedua data. Dalam penelitian ini memodifikasi model multitask berbasis Transformer menggunakan beberapa model berbasis pretrained large language model (LLM) untuk meningkatkan akurasi model dalam tugas reverse dictionary dan definition modeling dan menyelesaikan masalah keterbatasan data. Model LLM yang digunakan dalam penelitian ini adalah T5, mDeBERTa dan GPT-2. Hasil eksperimen menunjukkan bahwa model T5-Base unggul dalam tugas definition modeling, sementara GPT-2 lebih baik dalam tugas reverse dictionary. Namun, meskipun T5-Base memiliki performa tinggi dalam metrik evaluasi, hasil definisi yang dihasilkan masih memiliki kelemahan, seperti kurangnya variasi definisi, pengulangan struktur kalimat, serta kurangnya keterkaitan semantik antara kata dan definisi. Oleh karena itu, penelitian ini memberikan beberapa rekomendasi, seperti optimalisasi hyperparameter, penggunaan dataset yang lebih beragam, serta eksplorasi model pretrained yang lebih besar.

Perpustakaan Digital ITB

PRETRAINED LARGE LANGUAGE MODEL UNTUK TUGAS DEFINITION MODELING DAN REVERSE DICTIONARY

Artikel Terkait

Daftar Simpan Judul

PRETRAINED LARGE LANGUAGE MODEL UNTUK TUGAS DEFINITION MODELING DAN REVERSE DICTIONARY

Artikel Terkait