Penerjemahan berbasis statistik dengan korpus paralel terbatas (low resource)
menghasilkan banyak kata bahasa sumber yang tidak berhasil diterjemahkan ke
dalam bahasa target. Kata-kata ini disebut kata yang tidak dikenal oleh bahasa
target (unknown word) atau kata yang tidak terdapat dalam model terjemahan (out
of vocabulary/OOV). Banyaknya kata yang tidak dikenal menyebabkan rendahnya
kualitas terjemahan. Masalah ini juga terjadi pada penerjemahan bahasa Sunda ke
dalam bahasa Indonesia yang saat ini belum tersedia korpus paralel serta kakas
pemroses teks yang siap digunakan. Penelitian ini bertujuan meningkatkan hasil
terjemahan teks bahasa Sunda ke dalam bahasa Indonesia dengan cara
menerjemahkan kata OOV berbentuk kata berimbuhan yang masih muncul pada
hasil terjemahan berbasis statistik dengan menggunakan analisis morphologis.
Penerjemahan OOV berupa kata berimbuhan ini dilakukan dengan menambahkan
tahap postprocessing pada mesin penerjemah berbasis statistik. Tahap
postprocessing ini terdiri dari dua proses yaitu identifikasi pola imbuhan bahasa
Sunda dan pembentukan kata berimbuhan bahasa Indonesia. Proses pertama
dilakukan menggunakan kakas pemotong kata (stemmer) bahasa Sunda. Stemmer
ini dibuat berbasis aturan berdasarkan proses pembentukan kata imbuhan dalam
bahasa Sunda. Proses pertama menghasilkan pola imbuhan dan kata dasar dari
sebuah kata berimbuhan bahasa Sunda. Pada proses kedua, pola imbuhan bahasa
Sunda tersebut kemudian dipetakan ke dalam pola imbuhan bahasa Indonesia dan
digabungkan dengan kata dasarnya sehingga terbentuk kata imbuhan bahasa
Indonesia.
Evaluasi terhadap teknik analisis morfologis ini dilakukan secara dua tahap, yaitu
menguji kelengkapan aturan penerjemahan (rule coverage) terhadap 4338 kata
berimbuhan bahasa Sunda yang tercakup dalam 106 pola imbuhan dan menguji
penggunaan analisis morfologis dalam perbaikan kalimat terjemahan hasil
keluaran dari mesin penerjemah berbasis statistik. Pengujian tahap kedua ini
menggunakan 2412 pasang kalimat training dan 1204 kalimat testing. Pengukuran
kelengkapan aturan pada tahap pertama dilakukan dengan menghitung akurasi
penerjemahan yang dihasilkan setiap pola imbuhan, adapun evaluasi tahap kedua
dilakukan dengan mengukur kedekatan hasil terjemahan terhadap file referensi
dengan menggunakan skor Bleu. Selain itu, pada tahap kedua juga dilakukan
perhitungan jumlah OOV yang dihasilkan baik oleh Baseline (tanpa menggunakan
teknik analisis morfologis) maupun setelah digunakan analisis morfologis.
Hasil pengujian tahap pertama menunjukkan bahwa rule penerjemahan yang
dibuat baru dapat menerjemahkan 53% pola imbuhan dari 105 jenis pola imbuhan
yang digunakan pada pengujian, dengan akurasi penerjemahan mencapai 72%.
Adapun hasil pengujiapn tahap kedua menunjukkan peningkatan sebesar 2.17
point skor Bleu (4.43%) pada penerjemahan OOV berupa kata imbuhan dan
peningkatan sebesar 3.65 point skor Bleu (7.45%) pada penerjemahan OOV
berupa kata berimbuhan, stem, dan kata ulang.
Beberapa kendala yang masih dihadapi adalah adanya ambigu baik di tahap
stemming, pemilihan arti, maupun pembentukan kata imbuhan dalam bahasa
Indonesia. Selain itu penggunaan kata serapan dan pola imbuhan bahasa Indonesia
dalam bahasa Sunda juga masih menjadi masalah pada penelitian ini.