Perpustakaan Digital - Digilib ITB

PEMBANGKITAN ABSTRACT MEANING REPRESENTATION LINTAS BAHASA DARI KALIMAT BERBAHASA INDONESIA

117 views

Penulis	:	Aditya Rachman Putra [23520032]
Kontributor / Dosen Pembimbing	:	Dr. Masayu Leylia Khodra, S.T., M.T.
Jenis Koleksi	:	Tesis
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	Cross Lingual, Abstract Meaning Representation, Dataset Silver, Stog, Parafrasa
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	0 file
Tanggal Input	:	28 Jun 2022

Abstract Meaning Representation (AMR) merupakan salah satu cara untuk merepresentasikan semantik dari suatu kalimat. Pembangkit AMR untuk Bahasa Indonesia telah dikembangkan dengan pendekatan pembelajaran mesin menggunakan XGBoost dan dependency parsing, namun masih memiliki keterbatasan dalam variasi konsep dan relasi yang dapat direpresentasikan dan ukuran dataset yang relatif kecil. Pada penelitian ini dibangun model pembangkit AMR cross-lingual, yaitu pembangkitan graf AMR berbahasa Inggris dari kalimat berbahasa Indonesia, sebagai alternatif representasi semantik dari kalimat berbahasa Indonesia. Dilakukan perancangan model pembangkit AMR cross-lingual berbasis Pointer Generator Network untuk mengidentifikasi konsep, dan biaffine attention classifier untuk mengidentifkasi relasi antar konsep tersebut. Karena dalam AMR cross- lingual model dilatih dengan menggunakan resource bahasa targetnya (dalam kasus ini Inggris), maka dibangun korpus pelatihan dengan menggunakan 2 jenis dataset silver. Dataset silver par yang berupa kalimat paralel dari PANL-BPPT dibangkitkan dengan pembangkit AMR Bahasa Inggris, dan dataset silver trans yang merupakan data latih dan validasi AMR 2.0 yang diterjemahkan dengan menggunakan mesin translasi Opus-MT. Dalam penelitian ini dilakukan 3 pengujian, yaitu pengujian terhadap dataset silver yang digunakan, antara silver par dan silver trans. Kedua dilakukan pengujian terhadap skema pelatihan berupa zero- shot, bilingual, dan language-specific. Ketiga dilakukan pengujian terhadap alternatif multilingual word embedding yang digunakan, di antaranya adalah mBERT, XLM-R, dan mT5. Berdasarkan pengujian yang dilakukan, dataset silver trans memiliki kinerja yang terbaik, dengan skema pelatihan yang terbaik adalah skema bilingual dengan menggunakan dataset silver bahasa Indonesia dan AMR 2.0 bahasa Inggris. Multilingual word embedding yang menghasilkan kinerja terbaik dalam penelitian ini adalah mT5. Model ini memiliki kinerja yang setara dengan cross-lingual AMR untuk bahasa Jerman, Italia, Spanyol, dan Cina. Tapi bila dibandingkan dengan baseline translate and parse, model ini masih memiliki kinerja yang lebih rendah. Analisis yang dilakukan menunjukkan bahwa pembangkit cross-lingual AMR kesulitan menangani kalimat sangat pendek terutama yang berupa entitas, kalimat yang tidak lengkap seperti tagar dan tanggal artikel, dan kalimat yang sangat panjang. Pengujian ekstrinsik juga dilakukan terhadap dataset parafrasa WReTE, dengan klasifikasi berdasar nilai smatch. Model ini menghasilkan kinerja yang lebih baik dibanding model berbasis Indo4B dan model yang serupa dengan menggunakan AMR Indonesia. Namun masih memiliki kinerja lebih rendah dibandingkan model berbasis IndoBERT dan mBERT.

Perpustakaan Digital ITB

PEMBANGKITAN ABSTRACT MEANING REPRESENTATION LINTAS BAHASA DARI KALIMAT BERBAHASA INDONESIA

Artikel Terkait