Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Manusia berkomunikasi dengan ucapan yang beremosi untuk menyampaikan makna
yang sesuai sehingga sistem pengenalan dan sintesis ucapan harus mampu memahami
dan menyampaikan emosi yang sesuai. Untuk menghasilkan sistem yang bagus,
diperlukan data ucapan dengan emosi yang nyata. Namun, data tipe ini sulit untuk
didapatkan.
Machine speech chain menggunakan data tak berlabel untuk melanjutkan pelatihan
model pengenalan ucapan dan sintesis ucapan yang sebelumnya telah dilatih dengan
data berlabel. Sifat data tak berlabel yang tersedia lebih banyak dari data berlabel
membuat machine speech chain dapat digunakan dalam pengenalan emosi pada ucapan
yang data latihnya sulit didapat. Tugas akhir ini menggunakan data ucapan bernada
netral dan data ucapan dengan berbagai emosi untuk mengukur kinerja penggunaan
machine speech chain dalam pengenalan emosi dan pengenalan ucapan dari ucapan
beremosi. Metrik character error rate (CER) dipakai pada pengenalan ucapan dan
akurasi serta skor F1 dipakai pada pengenalan emosi.
Didapat bahwa model yang dilatih dengan 50% dari data ucapan beremosi netral
berlabel dan 22% dari data ucapan beremosi nonnetral berlabel akan mengalami
kenaikan kinerja CER dari 37,552% ke 34,523% apabila dilatih lagi dengan data
ucapan beremosi netral tak berlabel dan dari 37,552% ke 33,749% apabila dilatih lagi
dengan data ucapan tak berlabel gabungan. Akurasi emosi nonnetral mengalami
kenaikan sebesar 2,18% sampai 53,51% tetapi dengan nilai skor F1 yang cenderung
memburuk, berkisar dari kenaikan sebesar 20,6% dan penurunan sebesar 23,4%.
Nilai kedua metrik ini mengindikasikan model yang bias ke kelas mayoritas.