13519087 Hizkia Raditya Pratama Roosadi.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Fenomena alih kode dalam ucapan adalah masalah yang harus ditangani dalam
sistem automatic speech recognition (ASR). Ketika tidak ditangani, alih kode
bahasa asing dapat menurunkan akurasi prediksi ucapan. Seiring
berkembangnya teknologi, sistem pengenalan ucapan berkembang ke 2 jenis
arsitektur: konvensional & end-to-end (e2e). Dibandingkan arsitektur
konvensional, arsitektur e2e lebih digunakan karena struktur sederhana dan
kinerja lebih baik. Salah satu teknik pemodelan yang digunakan untuk ASR e2e
adalah model Connectionist Temporal Classification (CTC). Model CTC
berbasis gabungan dari recurrent neural network (RNN) dan sebuah fungsi
objektif CTC. Fungsi CTC digunakan untuk mengatasi keadaan ketika
alignment antara ucapan dan transkrip tidak diketahui. Pada tugas akhir ini,
penanganan fenomena alih kode Indonesia-Inggris pada sistem ASR e2e dengan
model CTC dilakukan. Proses penanganan alih kode yang diajukan adalah
melakukan pre-training dan transfer learning. Pre-training dilakukan ke data
ucapan bahasa Indonesia. Ketika diuji ke data uji bahasa Indonesia, sistem dapat
menghasilkan error rata-rata 13.23% (WER) dan 4.13% (CER). Namun, nilai
error rata-rata untuk data uji alih kode masih bernilai tinggi. Proses transfer
learning kemudian dilakukan terhadap data ucapan alih kode. Proses transfer
learning dilakukan dengan melakukan fine-tuning model terhadap data alih
kode. Ketika diuji ke data dengan alih kode, error dihasilkan membaik dengan
nilai rata-rata 48.115% (WER) dan 16.8% (CER). Namun, error pada data uji
bahasa Indonesia meningkat. Untuk mengatasi masalah ini, sistem dengan 2
model CTC dikembangkan yang mampu mengidentifikasi data yang hanya
mengandung bahasa Indonesia dan data yang mengandung alih kode
menggunakan nilai kepercayaan. Sistem berhasil memperbaiki nilai error rata-
rata 24.6625% (WER) dan 7.0525% (CER) untuk data bahasa Indonesia dan
menghasilkan 53.852% (WER) dan 20.7675% (CER) untuk data dengan alih
kode.