digilib@itb.ac.id +62 812 2508 8800

Penerjemahan berbasis statistik dengan korpus paralel terbatas (low resource) menghasilkan banyak kata bahasa sumber yang tidak berhasil diterjemahkan ke dalam bahasa target. Kata-kata ini disebut kata yang tidak dikenal oleh bahasa target (unknown word) atau kata yang tidak terdapat dalam model terjemahan (out of vocabulary/OOV). Banyaknya kata yang tidak dikenal menyebabkan rendahnya kualitas terjemahan. Masalah ini juga terjadi pada penerjemahan bahasa Sunda ke dalam bahasa Indonesia yang saat ini belum tersedia korpus paralel serta kakas pemroses teks yang siap digunakan. Penelitian ini bertujuan meningkatkan hasil terjemahan teks bahasa Sunda ke dalam bahasa Indonesia dengan cara menerjemahkan kata OOV berbentuk kata berimbuhan yang masih muncul pada hasil terjemahan berbasis statistik dengan menggunakan analisis morphologis. Penerjemahan OOV berupa kata berimbuhan ini dilakukan dengan menambahkan tahap postprocessing pada mesin penerjemah berbasis statistik. Tahap postprocessing ini terdiri dari dua proses yaitu identifikasi pola imbuhan bahasa Sunda dan pembentukan kata berimbuhan bahasa Indonesia. Proses pertama dilakukan menggunakan kakas pemotong kata (stemmer) bahasa Sunda. Stemmer ini dibuat berbasis aturan berdasarkan proses pembentukan kata imbuhan dalam bahasa Sunda. Proses pertama menghasilkan pola imbuhan dan kata dasar dari sebuah kata berimbuhan bahasa Sunda. Pada proses kedua, pola imbuhan bahasa Sunda tersebut kemudian dipetakan ke dalam pola imbuhan bahasa Indonesia dan digabungkan dengan kata dasarnya sehingga terbentuk kata imbuhan bahasa Indonesia. Evaluasi terhadap teknik analisis morfologis ini dilakukan secara dua tahap, yaitu menguji kelengkapan aturan penerjemahan (rule coverage) terhadap 4338 kata berimbuhan bahasa Sunda yang tercakup dalam 106 pola imbuhan dan menguji penggunaan analisis morfologis dalam perbaikan kalimat terjemahan hasil keluaran dari mesin penerjemah berbasis statistik. Pengujian tahap kedua ini menggunakan 2412 pasang kalimat training dan 1204 kalimat testing. Pengukuran kelengkapan aturan pada tahap pertama dilakukan dengan menghitung akurasi penerjemahan yang dihasilkan setiap pola imbuhan, adapun evaluasi tahap kedua dilakukan dengan mengukur kedekatan hasil terjemahan terhadap file referensi dengan menggunakan skor Bleu. Selain itu, pada tahap kedua juga dilakukan perhitungan jumlah OOV yang dihasilkan baik oleh Baseline (tanpa menggunakan teknik analisis morfologis) maupun setelah digunakan analisis morfologis. Hasil pengujian tahap pertama menunjukkan bahwa rule penerjemahan yang dibuat baru dapat menerjemahkan 53% pola imbuhan dari 105 jenis pola imbuhan yang digunakan pada pengujian, dengan akurasi penerjemahan mencapai 72%. Adapun hasil pengujiapn tahap kedua menunjukkan peningkatan sebesar 2.17 point skor Bleu (4.43%) pada penerjemahan OOV berupa kata imbuhan dan peningkatan sebesar 3.65 point skor Bleu (7.45%) pada penerjemahan OOV berupa kata berimbuhan, stem, dan kata ulang. Beberapa kendala yang masih dihadapi adalah adanya ambigu baik di tahap stemming, pemilihan arti, maupun pembentukan kata imbuhan dalam bahasa Indonesia. Selain itu penggunaan kata serapan dan pola imbuhan bahasa Indonesia dalam bahasa Sunda juga masih menjadi masalah pada penelitian ini.