13518145 M. Irfan Dzakiy.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Sistem pengenal ucapan atau Automatic Speech Recognition (ASR) memberikan
keluaran berupa teks hasil pengenalan ucapan. Teks ini umumnya tidak bertanda baca
(Ostendorf et al., 2008). Pemformatan hasil pengenalan ucapan penting untuk
dilakukan baik bagi manusia maupun mesin, karena dapat menghilangkan ambiguitas
makna pada kalimat, serta dapat digunakan diberbagai task NLP. Penelitian ini
bermaksud untuk menambahkan tanda titik, koma, dan tanda tanya pada hasil sistem
pengenalan ucapan.
Prediksi tanda baca dapat dilakukan menggunakan pendekatan Language Modeling,
Sequence Labelling, dan Machine Translation. F1 score terbaik dari penelitian
terdahulu didapat dari pendekatan Sequence Labelling dan Machine Translation.
Pendekatan sequence labelling menggunakan model Conditional Random Fields
dengan berbagai konfigurasi word range dan n_gram (Lu dan Ng, 2010). Pendekatan
machine translation menggunakan model Neural Machine Translation dengan
algoritma encoder RNN, Bi-RNN, CNN, dan Transformer, serta algoritma decoder
RNN, CNN, dan Transformer (Vandeghinste dkk, 2018). Korpus Indo4B dan data teks
dari caption otomatis YouTube digunakan dalam penelitian ini. Penelitian ini juga
menguji teknik sampling terbaik dalam mengatasi imbalance jumlah tanda baca pada
dataset.
Eksperimen dilakukan dengan mengubah metode sampling dan konfigurasi arsitektur
yang digunakan sehingga didapatkan konfigurasi terbaik. Berdasarkan eksperimen
yang dilakukan, metode sampling yang terbaik adalah metode Random
Undersampling, yang menghasilkan dataset dengan distribusi tanda baca yang
seimbang. Model terbaik yang berhasil diperoleh adalah model CRF dengan
konfigurasi word range 6 dan n_gram 3. F-measure terbaik untuk model tersebut
adalah: 78,69% untuk titik; 40,30% untuk koma; dan 81,54% untuk tanda tanya.
Selain itu, dilakukan simulasi berbagai variasi f1 score pengenalan ASR. F-measure
terbaik didapat dari simulasi ASR dengan f1 score 100% dengan model CRF terbaik,
yaitu: 66,59% untuk titik; 20,75% untuk koma; dan 40,36% untuk tanda tanya