Perpustakaan Digital - Digilib ITB

PEMBANGKITAN TEKS BAHASA INDONESIA DARI GRAF ABSTRACT MEANING REPRESENTATION MENGGUNAKAN MODEL BAHASA PRALATIH UNTUK PERINGKASAN TEKS OTOMATIS

273 views

Penulis	:	Taufiq Husada Daryanto [13518058]
Kontributor / Dosen Pembimbing	:	Dr.Eng. Ayu Purwarianti, S.T., M.T. Dr. Masayu Leylia Khodra, S.T., M.T. Fariska Zakhralativa Ruskanda, S.T., M.T.
Jenis Koleksi	:	Tugas Akhir
Tahun Terbit	:
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	pembangkitan teks, Abstract Meaning Representation, peringkasan, fine-tuning, graf, supervised task adaptation, tree-level embedding
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	0 file
Tanggal Input	:	29 Jun 2022

Pembangkitan teks dari graf Abstract Meaning Representation (AMR) adalah proses menghasilkan suatu keluaran teks dengan menggunakan masukan graf AMR. Dalam peringkasan teks Bahasa Indonesia berbasis AMR, pembangkitan teks umumnya menggunakan Simple NLG yang memiliki kelemahan teks yang dibangkitkan hanya berupa kumpulan kata yang tidak memiliki tata bahasa. Maka dari itu, pada tugas akhir ini dikembangkan model pembangkitan teks Bahasa Indonesia dari graf AMR berbasiskan model bahasa pralatih. Pada tugas akhir ini, pembangunan model pembangkitan teks Bahasa Indonesia dari graf AMR dilakukan dengan metode fine-tuning model bahasa pralatih serta dilakukan observasi pengaruh penambahan supervised task adaptation dan treelevel embedding terhadap kinerja model pembangkitan teks tersebut. Model bahasa pralatih yang diuji adalah IndoT5-base, mT5-base, dan IndoBART. Berdasarkan hasil pengujian, kombinasi metode terbaik adalah fine-tuning model IndoT5 dengan input representasi linier PENMAN dengan tambahan supervised task adaptation. Skor BLEU yang dihasilkan dari metode tersebut pada data uji kalimat sederhana adalah 0,5048 dan 0,3180 pada data uji kalimat berita. Sebagai studi kasus, model pembangkitan teks dari graf AMR yang dihasilkan tersebut digunakan untuk menghasilkan ringkasan abstraktif teks Bahasa Indonesia dari input graf ringkasan yang dihasilkan dari sistem peringkasan berbasis AMR (Akhyar, 2021). Hasil pengujian dari sistem tersebut pada data uji XLSumIndonesia memberikan nilai ROUGE-1 0,2123 dan ROUGE-2 0,0496. Sistem tersebut dapat menghasilkan ringkasan abstraktif dengan skor ROUGE-1 yang lebih tinggi daripada sistem peringkasan berbasis AMR yang dihasilkan Akhyar (2021) namun memiliki skor ROUGE-2 yang lebih rendah.

Perpustakaan Digital ITB

PEMBANGKITAN TEKS BAHASA INDONESIA DARI GRAF ABSTRACT MEANING REPRESENTATION MENGGUNAKAN MODEL BAHASA PRALATIH UNTUK PERINGKASAN TEKS OTOMATIS

Artikel Terkait