Perpustakaan Digital - Digilib ITB

POST-CONTROL PROSODI DAN EMOSI UNTUK SISTEM TEXT TO SPEECH BAHASA INDONESIA

87 views

Penulis	:	Moch Azhar Dhiaulhaq [23521052]
Kontributor / Dosen Pembimbing	:	Dessi Puji Lestari, S.T., M.Eng., Ph.D.
Jenis Koleksi	:	Tesis
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	Sistem TTS Ekspresif, Tacotron 2, Parallel WaveGAN, Global Style Token, MOS
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	0 file
Tanggal Input	:	19 Sep 2022

Penelitian ini bertujuan untuk membentuk sebuah sistem Text to Speech (TTS) dalam domain Bahasa Indonesia yang mampu mengontrol prosodi dan emosinya. Penelitian ini mengajukan sebuah model Emotion FastPitch yang merupakan pengembangan langsung dari model FastPitch. Pengembangannya dimaksudkan agar fitur prosodi yang dihasilkan tidak hanya diprediksi dari input kalimat, melainkan dari label emosinya juga. Untuk dapat menghasilkan emosi dengan lebih baik, model Emotion FastPitch juga menangani fitur prosodi energi. Model ini dipasangkan dengan model Vocoder HifiGAN. Semua model dilatih dengan sebuah korpus ekspresif. Korpus tersebut berisi 11,500 pasang teks, audio, dan label emosi dengan total durasi 21 jam 57 menit. Korpus tersebut mengandung emosi marah, senang, sedih, dan netral. Model Emotion FastPitch dibandingkan langsung dengan model FastPitch yang berfungsi sebagai baseline. Model tersebut juga dipasangkan dengan model HifiGAN. Kedua model dievaluasi dengan menggunakan metode Mean Opinion Score (MOS). Model Emotion FastPitch mendapatkan nilai 3.77 ± 0.09257. Lebih besar dibandingkan model FastPitch dengan nilai 3.272 ± 0.1067.

Perpustakaan Digital ITB

POST-CONTROL PROSODI DAN EMOSI UNTUK SISTEM TEXT TO SPEECH BAHASA INDONESIA

Artikel Terkait