digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Dandy Arif Rahman
Terbatas Irwan Sofiyan
» ITB

Sistem pengenalan ucapan Bahasa Indonesia yang sudah ada memiliki akurasi yang masih kurang baik untuk pengenalan ucapan spontan. Sistem tersebut dilatih menggunakan model akustik HMM-GMM. Pada penelitian ini, dikumpulkan data ucapan spontan Bahasa Indonesia berdurasi 14 jam dan performa sistem pengenalan ucapan ditingkatkan dengan mengganti model akustik dengan model berbasis neural network. Topologi neural network yang digunakan adalah Deep Neural Network (DNN), Convolutional Neural Network (CNN), dan Time Delay Neural Network (TDNN). Pada penelitian ini, baseline yang digunakan adalah model akustik HMM-GMM dengan data latih dari ucapan diktasi saja, nilai WER yang diperoleh 73.87%. Kemudian model tersebut diaugmentasi dengan derau, nilai WER turun menjadi 71.15%. Lalu diterapkan teknik adaptasi pada model tersebut sehingga WER turun menjadi 62.75%. Model adaptasi kemudain ditambahkan augmentasi derau dan WER turun menjadi 62.16%. Pada percobaan selanjutnya, model dilatih dengan data latih campuran antara ucapan diktasi dan spontan, nilai WER turun menjadi 57.59%. Selanjutnya model akustik diganti dengan model berbasis neural network. Pada model DNN, nilai WER turun menjadi 50.02%. Sementara pada model CNN, nilai WER turun menjadi 47.58%. Nilai WER terkecil diperoleh pada pemodelan akustik menggunakan topologi TDNN. Nilai WER model tersebut adalah 40.63%.