digilib@itb.ac.id +62 812 2508 8800

13519087 Hizkia Raditya Pratama Roosadi.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Fenomena alih kode dalam ucapan adalah masalah yang harus ditangani dalam sistem automatic speech recognition (ASR). Ketika tidak ditangani, alih kode bahasa asing dapat menurunkan akurasi prediksi ucapan. Seiring berkembangnya teknologi, sistem pengenalan ucapan berkembang ke 2 jenis arsitektur: konvensional & end-to-end (e2e). Dibandingkan arsitektur konvensional, arsitektur e2e lebih digunakan karena struktur sederhana dan kinerja lebih baik. Salah satu teknik pemodelan yang digunakan untuk ASR e2e adalah model Connectionist Temporal Classification (CTC). Model CTC berbasis gabungan dari recurrent neural network (RNN) dan sebuah fungsi objektif CTC. Fungsi CTC digunakan untuk mengatasi keadaan ketika alignment antara ucapan dan transkrip tidak diketahui. Pada tugas akhir ini, penanganan fenomena alih kode Indonesia-Inggris pada sistem ASR e2e dengan model CTC dilakukan. Proses penanganan alih kode yang diajukan adalah melakukan pre-training dan transfer learning. Pre-training dilakukan ke data ucapan bahasa Indonesia. Ketika diuji ke data uji bahasa Indonesia, sistem dapat menghasilkan error rata-rata 13.23% (WER) dan 4.13% (CER). Namun, nilai error rata-rata untuk data uji alih kode masih bernilai tinggi. Proses transfer learning kemudian dilakukan terhadap data ucapan alih kode. Proses transfer learning dilakukan dengan melakukan fine-tuning model terhadap data alih kode. Ketika diuji ke data dengan alih kode, error dihasilkan membaik dengan nilai rata-rata 48.115% (WER) dan 16.8% (CER). Namun, error pada data uji bahasa Indonesia meningkat. Untuk mengatasi masalah ini, sistem dengan 2 model CTC dikembangkan yang mampu mengidentifikasi data yang hanya mengandung bahasa Indonesia dan data yang mengandung alih kode menggunakan nilai kepercayaan. Sistem berhasil memperbaiki nilai error rata- rata 24.6625% (WER) dan 7.0525% (CER) untuk data bahasa Indonesia dan menghasilkan 53.852% (WER) dan 20.7675% (CER) untuk data dengan alih kode.