Abstract Meaning Representation (AMR) merupakan salah satu cara untuk
merepresentasikan semantik dari suatu kalimat. Pembangkit AMR untuk Bahasa
Indonesia telah dikembangkan dengan pendekatan pembelajaran mesin
menggunakan XGBoost dan dependency parsing, namun masih memiliki
keterbatasan dalam variasi konsep dan relasi yang dapat direpresentasikan dan
ukuran dataset yang relatif kecil. Pada penelitian ini dibangun model pembangkit
AMR cross-lingual, yaitu pembangkitan graf AMR berbahasa Inggris dari kalimat
berbahasa Indonesia, sebagai alternatif representasi semantik dari kalimat
berbahasa Indonesia.
Dilakukan perancangan model pembangkit AMR cross-lingual berbasis Pointer
Generator Network untuk mengidentifikasi konsep, dan biaffine attention classifier
untuk mengidentifkasi relasi antar konsep tersebut. Karena dalam AMR cross-
lingual model dilatih dengan menggunakan resource bahasa targetnya (dalam kasus
ini Inggris), maka dibangun korpus pelatihan dengan menggunakan 2 jenis dataset
silver. Dataset silver par yang berupa kalimat paralel dari PANL-BPPT
dibangkitkan dengan pembangkit AMR Bahasa Inggris, dan dataset silver trans
yang merupakan data latih dan validasi AMR 2.0 yang diterjemahkan dengan
menggunakan mesin translasi Opus-MT. Dalam penelitian ini dilakukan 3
pengujian, yaitu pengujian terhadap dataset silver yang digunakan, antara silver par
dan silver trans. Kedua dilakukan pengujian terhadap skema pelatihan berupa zero-
shot, bilingual, dan language-specific. Ketiga dilakukan pengujian terhadap
alternatif multilingual word embedding yang digunakan, di antaranya adalah
mBERT, XLM-R, dan mT5.
Berdasarkan pengujian yang dilakukan, dataset silver trans memiliki kinerja yang
terbaik, dengan skema pelatihan yang terbaik adalah skema bilingual dengan
menggunakan dataset silver bahasa Indonesia dan AMR 2.0 bahasa Inggris.
Multilingual word embedding yang menghasilkan kinerja terbaik dalam penelitian
ini adalah mT5. Model ini memiliki kinerja yang setara dengan cross-lingual AMR
untuk bahasa Jerman, Italia, Spanyol, dan Cina. Tapi bila dibandingkan dengan
baseline translate and parse, model ini masih memiliki kinerja yang lebih rendah.
Analisis yang dilakukan menunjukkan bahwa pembangkit cross-lingual AMR
kesulitan menangani kalimat sangat pendek terutama yang berupa entitas, kalimat
yang tidak lengkap seperti tagar dan tanggal artikel, dan kalimat yang sangat
panjang. Pengujian ekstrinsik juga dilakukan terhadap dataset parafrasa WReTE,
dengan klasifikasi berdasar nilai smatch. Model ini menghasilkan kinerja yang
lebih baik dibanding model berbasis Indo4B dan model yang serupa dengan
menggunakan AMR Indonesia. Namun masih memiliki kinerja lebih rendah
dibandingkan model berbasis IndoBERT dan mBERT.