Rais Vaza Man Tazakka [13519060].pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Dalam percakapan manusia, terdapat sebuah fenomena alih kode, yaitu suatu
fenomena pergantian bahasa dari satu bahasa ke bahasa yang lain dalam suatu
proses komunikasi. Di Indonesia, terdapat fenomena alih kode Indonesia-Inggris.
Fenomena alih kode perlu ditangani dalam sebuah sistem pengenalan ucapan.
Kebanyakan penelitian mengenai penanganan alih kode pada sistem pengenalan
ucapan menggunakan pendekatan supervised saja yang hanya menggunakan data
berlabel saja untuk pelatihannya, padahal data tak berlabel lebih tersedia daripada
data berlabel. Di sisi lain, terdapat pendekatan rantai ucapan mesin, sebuah
pendekatan semi-supervised berbasis deep learning yang dapat memanfaatkan data
tak berlabel sebagai tambahan atas data berlabel untuk melatih model pengenalan
ucapan dan model sintesis ucapan sekaligus. Oleh karena itu, pada tugas akhir ini,
dilakukan eksperimen untuk meningkatkan kinerja pengenalan ucapan alih kode
Indonesia-Inggris pada model pengenalan ucapan yang memanfaatkan data tak
berlabel menggunakan pendekatan rantai ucapan mesin. Model yang telah dilatih
dievaluasi dengan metrik character error rate (CER) untuk bahasa Indonesia,
bahasa Inggris, dan campuran. Berdasarkan eksperimen yang telah dilakukan,
penggunaan data tak berlabel dapat meningkatkan kinerja pengenalan ucapan alih
kode Indonesia-Inggris menggunakan rantai ucapan mesin jika pola alih kode
belum terepresentasikan dengan baik pada model yang dilatih secara supervised
saja. Model yang sebelumnya dilatih secara supervised saja dengan 10% dan 30%
data alih kode berlabel menunjukkan peningkatan kinerja ketika dilatih lagi dengan
90% dan 70% data alih kode sisanya yang diperlakukan seperi data tak berlabel
menggunakan mekanisme rantai ucapan mesin dari skor CER 163,00% ke 104,94%
dan dari 124,11% ke 84,00% masing-masing. Adapun model yang sebelumnya
dilatih dengan 50% data alih kode berlabel menunjukkan sedikit penurunan kinerja
ketika dilatih lagi dengan 50% data alih kode sisanya yang diperlakukan seperti
data tak berlabel dari skor CER 77,22% ke 78,00%.