digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Manusia berkomunikasi dengan ucapan yang beremosi untuk menyampaikan makna yang sesuai sehingga sistem pengenalan dan sintesis ucapan harus mampu memahami dan menyampaikan emosi yang sesuai. Untuk menghasilkan sistem yang bagus, diperlukan data ucapan dengan emosi yang nyata. Namun, data tipe ini sulit untuk didapatkan. Machine speech chain menggunakan data tak berlabel untuk melanjutkan pelatihan model pengenalan ucapan dan sintesis ucapan yang sebelumnya telah dilatih dengan data berlabel. Sifat data tak berlabel yang tersedia lebih banyak dari data berlabel membuat machine speech chain dapat digunakan dalam pengenalan emosi pada ucapan yang data latihnya sulit didapat. Tugas akhir ini menggunakan data ucapan bernada netral dan data ucapan dengan berbagai emosi untuk mengukur kinerja penggunaan machine speech chain dalam pengenalan emosi dan pengenalan ucapan dari ucapan beremosi. Metrik character error rate (CER) dipakai pada pengenalan ucapan dan akurasi serta skor F1 dipakai pada pengenalan emosi. Didapat bahwa model yang dilatih dengan 50% dari data ucapan beremosi netral berlabel dan 22% dari data ucapan beremosi nonnetral berlabel akan mengalami kenaikan kinerja CER dari 37,552% ke 34,523% apabila dilatih lagi dengan data ucapan beremosi netral tak berlabel dan dari 37,552% ke 33,749% apabila dilatih lagi dengan data ucapan tak berlabel gabungan. Akurasi emosi nonnetral mengalami kenaikan sebesar 2,18% sampai 53,51% tetapi dengan nilai skor F1 yang cenderung memburuk, berkisar dari kenaikan sebesar 20,6% dan penurunan sebesar 23,4%. Nilai kedua metrik ini mengindikasikan model yang bias ke kelas mayoritas.