digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Dessy Rondang Monaomi

Akurasi model pengenalan ucapan saat ini sudah dapat menyamai kemampuan manusia, namun hanya tersedia untuk kurang dari 100 bahasa dari sekitar 7.000 bahasa yang ada di dunia. Hal ini disebabkan karena untuk menghasilkan model pengenalan ucapan yang yang akurat, model perlu dilatih menggunakan dataset ucapan dengan transkrip dalam jumlah besar. Namun, sebagian besar bahasa tidak memiliki data ucapan dengan teks transkrip ini atau jumlahnya sangat terbatas. Keterbatasan data ini diakibatkan oleh proses penganotasian atau pemberian label pada data audio memerlukan biaya yang besar, waktu yang lama, dan adanya keterbatasan pembicara untuk sebagian bahasa. Untuk mengatasi permasalahan keterbatasan data ini, dapat dilakukan pengembangan model pengenalan ucapan dengan menggunakan pendekatan self-supervised learning (SSL). Namun, pengembangan model SSL membutuhkan data ucapan tanpa label dalam jumlah besar, sumber daya komputasi (GPU) yang besar, dan waktu pelatihan yang lama. Begitu juga untuk melakukan fine-tuning pada model pra-latih SSL yang sudah ada. Meskipun demikian, pengetahuan pada model pra-latih SSL dapat dimanfaatkan dengan sumber daya terbatas melalui transfer learning. Pemanfaatan model pra- latih self-supervised untuk mengembangkan model pengenalan ucapan Bahasa Indonesia menggunakan data ucapan terbatas sudah pernah dilakukan, namun kinerjanya masih belum optimal. Oleh karena itu, dalam penelitian tesis ini dilakukan eksplorasi lebih lanjut terkait pengembangan model pengenalan ucapan berbasiskan self-supervised model yang efektif untuk Bahasa Indonesia. Upaya peningkatan kinerja model pengenalan ucapan ini dilakukan dengan mengembangkan model bahasa tambahan yang digunakan pada proses decoding dan mengadaptasi sistem pengenalan ucapan agar dapat menangani kata OOV (Out- of-Vocabulary). Untuk menangani permasalahan OOV ini, dikembangkan sistem Information Retrieval (IR) untuk memperoleh teks yang mengandung kata-kata OOV. Kumpulan teks hasil IR digunakan untuk melatih model bahasa dan menjadi masukan bagi model Text-to-Speech (TTS) untuk menghasilkan data audio yang mengandung kata-kata OOV. Data audio hasil sintesis kemudian digunakan untuk melatih ulang model pengenalan ucapan. ii Pendekatan yang diusulkan, yaitu dengan menggunakan model bahasa tambahan untuk meningkatkan pemahaman model terkait struktur kata dan melatih ulang model pengenalan ucapan untuk meningkatkan pengenalan karakter dalam urutan bunyi, berhasil meningkatkan kinerja model secara signifikan. Model pengenalan ucapan dengan pendekatan usulan berhasil mencapai Character Error Rate (CER) sebesar 12.2% dan Word Error Rate (WER) sebesar 45.6% ketika dievaluasi pada data uji, sedangkan model pengenalan ucapan dengan pendekatan sebelumnya menghasilkan CER sebesar 16.5% dan WER sebesar 68.6%. Pendekatan yang diusulkan ini mampu melakukan adaptasi sistem pengenalan ucapan secara otomatis, yang secara efektif meningkatkan kinerja model sebesar 26% relatif pada CER dan 34% relatif pada WER dibandingkan dengan pendekatan awal.