13519157 Ryandito Diandaru.pdf
Terbatas Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Machine translation adalah salah satu solusi pelestarian bahasa daerah yang berjumlah lebih dari
700 bahasa daerah di Indonesia. Pendekatan yang efektif dapat dimulai dari pengembangan model
machine translation yang berfokus pada Bahasa Jawa, yang menjadi bahasa daerah dengan jumlah
penutur terbanyak di Indonesia, mencapai 68 juta orang. Bahasa Jawa memiliki ukuran korpus
bilingual yang lebih rendah jika dibandingkan dengan bahasa-bahasa lain di dunia. Ukuran korpus
bilingual tersebut menjadi tantangan tersendiri untuk membangun sebuah model machine
translation. Maka dari itu, untuk membuat model machine translation Bahasa Indonesia-Jawa
diperlukan augmentasi data seperti back-translation untuk memperbesar ukuran korpus bilingual
dari korpus monolingual yang ada. Di sisi lain, Large Language Models (LLM) yang dapat
membantu permasalahan ini mulai bermunculan. GPT-3.5 telah menarik perhatian baru-baru ini
karena kemampuannya dalam hal penalaran dan logika, dimana sebelumnya hal ini belum pernah
teramati pada language model. Namun, eksplorasi penggunaan LLM untuk bahasa-bahasa yang
kurang terwakili seperti Bahasa Jawa belum banyak dilakukan.
Penelitian ini difokuskan pada evaluasi dan eksplorasi kinerja GPT-3.5 dalam menerjemahkan
Bahasa Indonesia ke Bahasa Jawa, serta pemanfaatannya sebagai metode untuk memperkaya data
melalui augmentasi. Evaluasi dan eksplorasi GPT-3.5 dalam machine translation Bahasa
Indonesia-Jawa dilakukan melalui tiga eksperimen utama. Eksperimen pertama adalah prompt
engineering GPT-3.5 dalam machine translation Bahasa Indonesia-Jawa. Eksperimen kedua
adalah perbandingan beberapa metode augmentasi data untuk machine translation yang
menggunakan GPT-3.5 dan tidak. Eksperimen ketiga adalah perbandingan kondisi prompting
dalam task pembuatan kalimat bilingual. Eksperimen pertama dan ketiga dijalankan dalam kondisi
zero-shot dan few-shot. Pembuatan kalimat bilingual disebut sebagai parallel sentence generation.
Dari hasil eksperimen, terungkap bahwa metode prompting yang paling optimal bagi GPT-3.5
dalam menerjemahkan Bahasa Indonesia ke Bahasa Jawa adalah melalui pendekatan few-shot.
Dibandingkan prompting dengan behavior context, pendekatan few-shot berhasil secara konsisten
meningkatkan skor BLEU sebesar rata-rata 1.01. Hasil eksperimen perbandingan augmentasi data
dengan back-translation dan parallel sentence generation menunjukkan bahwa parallel sentence
generation menghasilkan rata-rata skor BLEU yang paling tinggi, yakni sebesar 16. Parallel
sentence generation dengan pendekatan few-shot berhasil mencapai skor yang kompetitif dengan
pendekatan zero-shot, meskipun dengan jumlah data sintetis yang lebih sedikit. Selain itu,
kalimat-kalimat yang dihasilkan melalui pendekatan few-shot juga menunjukkan tingkat
ketidakcocokan yang lebih rendah dibandingkan dengan pendekatan zero-shot, dengan perbedaan
sekitar 11.34%. Dengan demikian, dapat disimpulkan bahwa kalimat-kalimat yang dihasilkan
melalui pendekatan few-shot dalam parallel sentence generation memiliki kualitas yang lebih
unggul.