digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Iftitakhul Zakiah
PUBLIC Alice Diniarti

Tesis
PUBLIC Alice Diniarti

Automatic Speech Recognition (ASR) atau Sistem Pengenal Ucapan sangat berkembang pesat apalagi di zaman sekarang. ASR dikembangkan di berbagai bahasa, salah satunya Bahasa Indonesia. Akan tetapi ASR Bahasa Indonesia memiliki sedikit data latih berlabel dibandingkan dengan bahasa lainnya. Pelabelan data audio ini membutuhkan waktu yang lama. Pelabelan kata membutuhkan waktu sekitar 6-8 kali durasi audio, sedangkan pelabelan fonem membutuhkan waktu yang jauh lebih lama. Di sisi lain, data audio yang tidak berlabel lebih mudah didapatkan sehingga dibutuhkan pendekatan yang memanfaatkan data tidak berlabel untuk meningkatkan kinerja ASR. Pendekatan yang menggunakan data tidak berlabel merupakan salah satu pendekatan pada weakly supervised learning. Pada penelitian tesis ini difokuskan untuk pendekatan berbasis kesepakatan dengan empat model heterogen, yaitu DNN, LSTM, CNN, dan TDNN. Keempat model tersebut melakukan dekode terhadap data tidak berlabel. Dari hasil dekode kemudian disejajarkan dan dilakukan voting per frame. Data hasil voting yang disepakati oleh keempat model membentuk segmen-segmen yang digunakan sebagai data tambahan untuk proses pelatihan pada keempat model. DNN memberikan peningkatan kinerja relatif hingga 1,95%, CNN hingga 1,56%, dan TDNN hingga 2,59%. LSTM secara umum tidak menunjukkan peningkatan kinerja tetapi terdapat peningkatan relatif di satu data uji sebesar 1,65%. Pelatihan dengan data tambahan berupa segmen tidak cocok dengan LSTM karena LSTM kehilangan konteks dari sebelum segmen tersebut, sedangkan untuk DNN, CNN, dan TDNN masih bisa dikembangkan lebih lanjut.