Kelemahan Gaussian Mixture Model (GMM) dalam memodelkan data ucapan spontan mengarahkan penggunaan Deep Neural Network (DNN) sebagai alternatif pendekatan model akustik. DNN memerlukan data latih dalam jumlah besar untuk mempelajari parameter model. Banyaknya data latih tidak menjamin seluruh data mengandung informasi yang tepat dalam menghasilkan model akustik yang baik. Pemeriksaan kandungan informasi data latih dapat dilakukan dengan menerapkan skema pemilihan data active learning.
Penelitian ini bertujuan untuk membangun model akustik berbasis DNN pada sistem pengenal ucapan spontan Bahasa Indonesia. Peningkatan kinerja sistem, yang diukur berdasarkan Word Error Rate (WER), menggunakan model DNN-HMM dibandingkan dengan model tolak ukur GMM-HMM. Eksperimen awal untuk menilai kontribusi data menggunakan active learning terhadap masing-masing model juga dilakukan.
Data latih penelitian ini menggunakan data dari penelitian sebelumnya. Pengujian model akustik dilakukan pada skema tertutup dan terbuka terhadap model bahasa. Terdapat 35,17 jam data suara yang mengandung 14.572 ucapan dari 239 pembicara sebagai data latih. Sementara itu, data uji dipilih secara acak sebanyak 1.989 ucapan dengan total durasi 3,6 jam yang dibacakan oleh 10% dari total pembicara pada data latih.
Penurunan WER dari ASR berbasis GMM-HMM ke ASR berbasis DNN-HMM terjadi sebesar 2,53% dan 3,89% berturut-turut pada skema tertutup dan terbuka terhadap model bahasa. Pemeriksaan data dengan active learning pada model GMM-HMM menunjukkan bahwa penggunaan sekitar 54% data latih mampu memberikan akurasi pengenalan yang seimbang dibanding penggunaan seluruh data. Sementara itu, penambahan data latih untuk model DNN yang bersifat lebih robust terhadap noisy data menunjukkan peningkatan kinerja ASR.
Perpustakaan Digital ITB