digilib@itb.ac.id +62 812 2508 8800

Sistem pengenal ucapan otomatis atau ASR merupakan sebuah sistem yang dapat secara cepat dan otomatis menerjemahkan kata-kata atau ucapan verbal menjadi teks yang sesuai. Fokus dari pengembangan ASR saat ini adalah pada kasus ucapan jarak dekat, yaitu posisi pembicara berada dalam jarak kurang dari 30 cm dari alat perekaman. Hingga saat ini belum ada penelitian terkait sistem pengenalan ucapan jarak jauh dalam Bahasa Indonesia. Pada penelitian ini dilakukan riset dan eksperimen terkait ASR jarak jauh Bahasa Indonesia. Penelitian ini melakukan dua pendekatan dalam membangun ASR jarak jauh, yaitu dengan membangun front-end pemrosesan rekaman serta dengan membangun model akustik adaptasi data. Front-end yang dibangun bertujuan untuk mengurangi noise ataupun mengubah amplitudo rekaman. Front-end ini terdiri dari pengurangan spektral, filter wiener, normalisasi volume, dan dynamic range compression. Adaptasi model akustik yang dilakukan adalah adaptasi data jarak, yaitu dengan menambahkan data jarak jauh dalam pelatihan model akustik, serta dengan perturbasi volume. Pengujian dilakukan pada data jarak yang berasal dari 4 jarak berbeda, yaitu 0 meter, 0.5 meter, 1 meter, dan 2 meter. Setiap jarak ini memiliki 96 rekaman data uji yang berasal dari 8 pembicara berbeda. Hasil dari eksperimen yang dilakukan menunjukkan penurunan WER dibandingkan dengan sistem baseline pada penggunaan front-end pengurangan spektral dan pada model akustik adaptasi data jarak. Pengaplikasian pengurangan spektral dengan model akustik baseline mampu menurunkan WER rata-rata sebesar 0.59%. Penggunaan model akustik adaptasi jarak 0 meter dan 0.5 meter mampu menurunkan rata-rata WER sebesar 2.31%. Penggabungan pengurangan spektral dengan model akustik adaptasi jarak memberikan penurunan WER rata-rata sebesar 2.19%. Penggunaan teknik lain seperti filter wiener, normalisasi volume, dynamic range compression, dan pemodelan perturbasi volume belum mampu memberikan efek yang positif.