Akurasi model pengenalan ucapan saat ini sudah dapat menyamai kemampuan
manusia, namun hanya tersedia untuk kurang dari 100 bahasa dari sekitar 7.000
bahasa yang ada di dunia. Hal ini disebabkan karena untuk menghasilkan model
pengenalan ucapan yang yang akurat, model perlu dilatih menggunakan dataset
ucapan dengan transkrip dalam jumlah besar. Namun, sebagian besar bahasa tidak
memiliki data ucapan dengan teks transkrip ini atau jumlahnya sangat terbatas.
Keterbatasan data ini diakibatkan oleh proses penganotasian atau pemberian label
pada data audio memerlukan biaya yang besar, waktu yang lama, dan adanya
keterbatasan pembicara untuk sebagian bahasa. Untuk mengatasi permasalahan
keterbatasan data ini, dapat dilakukan pengembangan model pengenalan ucapan
dengan menggunakan pendekatan self-supervised learning (SSL). Namun,
pengembangan model SSL membutuhkan data ucapan tanpa label dalam jumlah
besar, sumber daya komputasi (GPU) yang besar, dan waktu pelatihan yang lama.
Begitu juga untuk melakukan fine-tuning pada model pra-latih SSL yang sudah ada.
Meskipun demikian, pengetahuan pada model pra-latih SSL dapat dimanfaatkan
dengan sumber daya terbatas melalui transfer learning. Pemanfaatan model pra-
latih self-supervised untuk mengembangkan model pengenalan ucapan Bahasa
Indonesia menggunakan data ucapan terbatas sudah pernah dilakukan, namun
kinerjanya masih belum optimal. Oleh karena itu, dalam penelitian tesis ini
dilakukan eksplorasi lebih lanjut terkait pengembangan model pengenalan ucapan
berbasiskan self-supervised model yang efektif untuk Bahasa Indonesia.
Upaya peningkatan kinerja model pengenalan ucapan ini dilakukan dengan
mengembangkan model bahasa tambahan yang digunakan pada proses decoding
dan mengadaptasi sistem pengenalan ucapan agar dapat menangani kata OOV (Out-
of-Vocabulary). Untuk menangani permasalahan OOV ini, dikembangkan sistem
Information Retrieval (IR) untuk memperoleh teks yang mengandung kata-kata
OOV. Kumpulan teks hasil IR digunakan untuk melatih model bahasa dan menjadi
masukan bagi model Text-to-Speech (TTS) untuk menghasilkan data audio yang
mengandung kata-kata OOV. Data audio hasil sintesis kemudian digunakan untuk
melatih ulang model pengenalan ucapan.
ii
Pendekatan yang diusulkan, yaitu dengan menggunakan model bahasa tambahan
untuk meningkatkan pemahaman model terkait struktur kata dan melatih ulang
model pengenalan ucapan untuk meningkatkan pengenalan karakter dalam urutan
bunyi, berhasil meningkatkan kinerja model secara signifikan. Model pengenalan
ucapan dengan pendekatan usulan berhasil mencapai Character Error Rate (CER)
sebesar 12.2% dan Word Error Rate (WER) sebesar 45.6% ketika dievaluasi pada
data uji, sedangkan model pengenalan ucapan dengan pendekatan sebelumnya
menghasilkan CER sebesar 16.5% dan WER sebesar 68.6%. Pendekatan yang
diusulkan ini mampu melakukan adaptasi sistem pengenalan ucapan secara
otomatis, yang secara efektif meningkatkan kinerja model sebesar 26% relatif pada
CER dan 34% relatif pada WER dibandingkan dengan pendekatan awal.