Aulia Adila [13519100].pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Model pengenal ucapan yang ideal adalah model yang mampu mentranskripsi
ucapan secara akurat untuk berbagai karakteristik sinyal suara, seperti gaya bicara
(dikte dan spontan), konteks ucapan (formal dan informal), dan kondisi kebisingan
latar belakang (bersih dan moderat). Pembangunan model dapat dilakukan dari awal
menggunakan data latih berukuran besar. Akan tetapi, tidak tersedia data latih
ucapan bahasa Indonesia dengan jumlah besar yang mewakili variabilitas
karakteristik, sehingga digunakan pendekatan lain dalam membangun model secara
efektif dengan memanfaatkan pengetahuan yang sudah dimiliki model pralatih,
yaitu transfer learning.
Pada tugas akhir ini, dilakukan penelitian pembangunan model pengenal ucapan
bahasa Indonesia menggunakan metode transfer learning terhadap model state-of-
the-art Massively Multilingual Speech (MMS) dan Whisper menggunakan 48.570
rekaman. Model hasil transfer learning (fine-tuned model) diuji terhadap data
ucapan yang mewakili variabilitas karakteristik, kemudian dibandingkan dengan
pengujian model tanpa transfer learning (baseline model). Hasil eksperimen
menunjukkan peningkatan kemampuan prediksi model setelah dilakukan transfer
learning yang ditandai dengan penurunan nilai WER (word error rate). Nilai WER
terendah dicapai oleh fine-tuned model Whisper pada setiap kelompok data uji.
Nilai WER terendah dicapai oleh data uji DFB (dikte-formal-bersih), sementara
nilai WER tertinggi dicapai oleh data uji SIB (spontan-informal-bersih). Selain itu,
disimpulkan bahwa karakteristik yang paling mempengaruhi kemampuan prediksi
model adalah variasi gaya bicara dan konteks ucapan.