digilib@itb.ac.id +62 812 2508 8800

Rais Vaza Man Tazakka [13519060].pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Dalam percakapan manusia, terdapat sebuah fenomena alih kode, yaitu suatu fenomena pergantian bahasa dari satu bahasa ke bahasa yang lain dalam suatu proses komunikasi. Di Indonesia, terdapat fenomena alih kode Indonesia-Inggris. Fenomena alih kode perlu ditangani dalam sebuah sistem pengenalan ucapan. Kebanyakan penelitian mengenai penanganan alih kode pada sistem pengenalan ucapan menggunakan pendekatan supervised saja yang hanya menggunakan data berlabel saja untuk pelatihannya, padahal data tak berlabel lebih tersedia daripada data berlabel. Di sisi lain, terdapat pendekatan rantai ucapan mesin, sebuah pendekatan semi-supervised berbasis deep learning yang dapat memanfaatkan data tak berlabel sebagai tambahan atas data berlabel untuk melatih model pengenalan ucapan dan model sintesis ucapan sekaligus. Oleh karena itu, pada tugas akhir ini, dilakukan eksperimen untuk meningkatkan kinerja pengenalan ucapan alih kode Indonesia-Inggris pada model pengenalan ucapan yang memanfaatkan data tak berlabel menggunakan pendekatan rantai ucapan mesin. Model yang telah dilatih dievaluasi dengan metrik character error rate (CER) untuk bahasa Indonesia, bahasa Inggris, dan campuran. Berdasarkan eksperimen yang telah dilakukan, penggunaan data tak berlabel dapat meningkatkan kinerja pengenalan ucapan alih kode Indonesia-Inggris menggunakan rantai ucapan mesin jika pola alih kode belum terepresentasikan dengan baik pada model yang dilatih secara supervised saja. Model yang sebelumnya dilatih secara supervised saja dengan 10% dan 30% data alih kode berlabel menunjukkan peningkatan kinerja ketika dilatih lagi dengan 90% dan 70% data alih kode sisanya yang diperlakukan seperi data tak berlabel menggunakan mekanisme rantai ucapan mesin dari skor CER 163,00% ke 104,94% dan dari 124,11% ke 84,00% masing-masing. Adapun model yang sebelumnya dilatih dengan 50% data alih kode berlabel menunjukkan sedikit penurunan kinerja ketika dilatih lagi dengan 50% data alih kode sisanya yang diperlakukan seperti data tak berlabel dari skor CER 77,22% ke 78,00%.