Abstrak:
Salah satu metoda yang digunakan dalam sistem pengenalan ucapan adalah Hidden Markov Model (HAM) atau Model Markov Tersembunyi (MMT). Pada MMT konvensional, proses ucapan diasumsikan bersifat stasioner dimana probabilitas transisi berlaku untuk setiap waktu pengamatan. Path penelitian ini diajukan sebuah model baru yaitu Model Markov Tersembunyi yang Bergantung Waktu (MMTBW) . Pala model ini, proses ucapan diasumsikan sebagai proses non-stasioner dimana probabilitas transisi bergantung pada waktu pengamatan. MMTBW didasarkan pada MMT yang Bergantung Konteks dengan menerapkannya pada tiap bingkai.
Pada sistem ini digunakan pa pengenalan koefisien cepstral orde 12 yang diturunkan dari koe ft% LPC orde 10 dan normalisasi panjang kata secara linier. Distribusi probabilitas ditentukan berdasarkan jarak antara vektor koefisien cepstral basil pengamatan dengan vektor kode menggunakan sebuah fungsi pembobot. Pengujian sistem pengenalan ucapan dilakukan dengan mengenali ucapan bilangan dalam bahasa Indonesia yang terdiri dari satu hingga lima kata. Pengenalan dilakukan secara off-line pada ucapan bilangan yang telah diisolasi secara manual. Data ucapan direkam dari 4 pria dan 4 wanita.
Fungsi pembobot eksponensial memberikan basil terbaik dibandingkan dua fungsi pembobot yang lain, yaitu fungsi inversi dan fungsi normal. Pada pengenalan untuk kata tunggal, kesalahan pengenalan untuk sistem speaker dependent(SD) berkisar antara 1% (24 bingkai dan 6 bit kode) hingga 9% (8 bingkai dan 3 bit kode). Sementara untuk sistem speaker independent(SI), kesalahan berkisar antara 5% (24 bingkai dan 6 bit kode) hingga 23% (8 bingkai dan 3 bit kode). Kesalahan pengenalan turun secara eksponensial dengan bertambahnya rasio antara jumlah data pelatih dan jumlah kata yang akan dikenali. Dengan memperhatikan konteks kata, koefisien pengenalan untuk kata terhubung akan meningkat dibandingkan jika tidak memperhatikan konteks. Sebagai contoh, koefisien pengenalan untuk lima kata terhubung dapat ditingkatkan dari 74% menjadi 93% untuk sistem SD dan 66% menjadi 92% untuk sistem SI menggunakan 20 bingkai dan 4 bit kode.