digilib@itb.ac.id +62 812 2508 8800

13519157 Ryandito Diandaru.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Machine translation adalah salah satu solusi pelestarian bahasa daerah yang berjumlah lebih dari 700 bahasa daerah di Indonesia. Pendekatan yang efektif dapat dimulai dari pengembangan model machine translation yang berfokus pada Bahasa Jawa, yang menjadi bahasa daerah dengan jumlah penutur terbanyak di Indonesia, mencapai 68 juta orang. Bahasa Jawa memiliki ukuran korpus bilingual yang lebih rendah jika dibandingkan dengan bahasa-bahasa lain di dunia. Ukuran korpus bilingual tersebut menjadi tantangan tersendiri untuk membangun sebuah model machine translation. Maka dari itu, untuk membuat model machine translation Bahasa Indonesia-Jawa diperlukan augmentasi data seperti back-translation untuk memperbesar ukuran korpus bilingual dari korpus monolingual yang ada. Di sisi lain, Large Language Models (LLM) yang dapat membantu permasalahan ini mulai bermunculan. GPT-3.5 telah menarik perhatian baru-baru ini karena kemampuannya dalam hal penalaran dan logika, dimana sebelumnya hal ini belum pernah teramati pada language model. Namun, eksplorasi penggunaan LLM untuk bahasa-bahasa yang kurang terwakili seperti Bahasa Jawa belum banyak dilakukan. Penelitian ini difokuskan pada evaluasi dan eksplorasi kinerja GPT-3.5 dalam menerjemahkan Bahasa Indonesia ke Bahasa Jawa, serta pemanfaatannya sebagai metode untuk memperkaya data melalui augmentasi. Evaluasi dan eksplorasi GPT-3.5 dalam machine translation Bahasa Indonesia-Jawa dilakukan melalui tiga eksperimen utama. Eksperimen pertama adalah prompt engineering GPT-3.5 dalam machine translation Bahasa Indonesia-Jawa. Eksperimen kedua adalah perbandingan beberapa metode augmentasi data untuk machine translation yang menggunakan GPT-3.5 dan tidak. Eksperimen ketiga adalah perbandingan kondisi prompting dalam task pembuatan kalimat bilingual. Eksperimen pertama dan ketiga dijalankan dalam kondisi zero-shot dan few-shot. Pembuatan kalimat bilingual disebut sebagai parallel sentence generation. Dari hasil eksperimen, terungkap bahwa metode prompting yang paling optimal bagi GPT-3.5 dalam menerjemahkan Bahasa Indonesia ke Bahasa Jawa adalah melalui pendekatan few-shot. Dibandingkan prompting dengan behavior context, pendekatan few-shot berhasil secara konsisten meningkatkan skor BLEU sebesar rata-rata 1.01. Hasil eksperimen perbandingan augmentasi data dengan back-translation dan parallel sentence generation menunjukkan bahwa parallel sentence generation menghasilkan rata-rata skor BLEU yang paling tinggi, yakni sebesar 16. Parallel sentence generation dengan pendekatan few-shot berhasil mencapai skor yang kompetitif dengan pendekatan zero-shot, meskipun dengan jumlah data sintetis yang lebih sedikit. Selain itu, kalimat-kalimat yang dihasilkan melalui pendekatan few-shot juga menunjukkan tingkat ketidakcocokan yang lebih rendah dibandingkan dengan pendekatan zero-shot, dengan perbedaan sekitar 11.34%. Dengan demikian, dapat disimpulkan bahwa kalimat-kalimat yang dihasilkan melalui pendekatan few-shot dalam parallel sentence generation memiliki kualitas yang lebih unggul.