digilib@itb.ac.id +62 812 2508 8800

13518145 M. Irfan Dzakiy.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Sistem pengenal ucapan atau Automatic Speech Recognition (ASR) memberikan keluaran berupa teks hasil pengenalan ucapan. Teks ini umumnya tidak bertanda baca (Ostendorf et al., 2008). Pemformatan hasil pengenalan ucapan penting untuk dilakukan baik bagi manusia maupun mesin, karena dapat menghilangkan ambiguitas makna pada kalimat, serta dapat digunakan diberbagai task NLP. Penelitian ini bermaksud untuk menambahkan tanda titik, koma, dan tanda tanya pada hasil sistem pengenalan ucapan. Prediksi tanda baca dapat dilakukan menggunakan pendekatan Language Modeling, Sequence Labelling, dan Machine Translation. F1 score terbaik dari penelitian terdahulu didapat dari pendekatan Sequence Labelling dan Machine Translation. Pendekatan sequence labelling menggunakan model Conditional Random Fields dengan berbagai konfigurasi word range dan n_gram (Lu dan Ng, 2010). Pendekatan machine translation menggunakan model Neural Machine Translation dengan algoritma encoder RNN, Bi-RNN, CNN, dan Transformer, serta algoritma decoder RNN, CNN, dan Transformer (Vandeghinste dkk, 2018). Korpus Indo4B dan data teks dari caption otomatis YouTube digunakan dalam penelitian ini. Penelitian ini juga menguji teknik sampling terbaik dalam mengatasi imbalance jumlah tanda baca pada dataset. Eksperimen dilakukan dengan mengubah metode sampling dan konfigurasi arsitektur yang digunakan sehingga didapatkan konfigurasi terbaik. Berdasarkan eksperimen yang dilakukan, metode sampling yang terbaik adalah metode Random Undersampling, yang menghasilkan dataset dengan distribusi tanda baca yang seimbang. Model terbaik yang berhasil diperoleh adalah model CRF dengan konfigurasi word range 6 dan n_gram 3. F-measure terbaik untuk model tersebut adalah: 78,69% untuk titik; 40,30% untuk koma; dan 81,54% untuk tanda tanya. Selain itu, dilakukan simulasi berbagai variasi f1 score pengenalan ASR. F-measure terbaik didapat dari simulasi ASR dengan f1 score 100% dengan model CRF terbaik, yaitu: 66,59% untuk titik; 20,75% untuk koma; dan 40,36% untuk tanda tanya