digilib@itb.ac.id +62 812 2508 8800

Aulia Adila [13519100].pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Model pengenal ucapan yang ideal adalah model yang mampu mentranskripsi ucapan secara akurat untuk berbagai karakteristik sinyal suara, seperti gaya bicara (dikte dan spontan), konteks ucapan (formal dan informal), dan kondisi kebisingan latar belakang (bersih dan moderat). Pembangunan model dapat dilakukan dari awal menggunakan data latih berukuran besar. Akan tetapi, tidak tersedia data latih ucapan bahasa Indonesia dengan jumlah besar yang mewakili variabilitas karakteristik, sehingga digunakan pendekatan lain dalam membangun model secara efektif dengan memanfaatkan pengetahuan yang sudah dimiliki model pralatih, yaitu transfer learning. Pada tugas akhir ini, dilakukan penelitian pembangunan model pengenal ucapan bahasa Indonesia menggunakan metode transfer learning terhadap model state-of- the-art Massively Multilingual Speech (MMS) dan Whisper menggunakan 48.570 rekaman. Model hasil transfer learning (fine-tuned model) diuji terhadap data ucapan yang mewakili variabilitas karakteristik, kemudian dibandingkan dengan pengujian model tanpa transfer learning (baseline model). Hasil eksperimen menunjukkan peningkatan kemampuan prediksi model setelah dilakukan transfer learning yang ditandai dengan penurunan nilai WER (word error rate). Nilai WER terendah dicapai oleh fine-tuned model Whisper pada setiap kelompok data uji. Nilai WER terendah dicapai oleh data uji DFB (dikte-formal-bersih), sementara nilai WER tertinggi dicapai oleh data uji SIB (spontan-informal-bersih). Selain itu, disimpulkan bahwa karakteristik yang paling mempengaruhi kemampuan prediksi model adalah variasi gaya bicara dan konteks ucapan.