digilib@itb.ac.id +62 812 2508 8800

Penelitian ini bertujuan untuk membentuk sebuah sistem Text to Speech (TTS) dalam domain Bahasa Indonesia yang mampu mengontrol prosodi dan emosinya. Penelitian ini mengajukan sebuah model Emotion FastPitch yang merupakan pengembangan langsung dari model FastPitch. Pengembangannya dimaksudkan agar fitur prosodi yang dihasilkan tidak hanya diprediksi dari input kalimat, melainkan dari label emosinya juga. Untuk dapat menghasilkan emosi dengan lebih baik, model Emotion FastPitch juga menangani fitur prosodi energi. Model ini dipasangkan dengan model Vocoder HifiGAN. Semua model dilatih dengan sebuah korpus ekspresif. Korpus tersebut berisi 11,500 pasang teks, audio, dan label emosi dengan total durasi 21 jam 57 menit. Korpus tersebut mengandung emosi marah, senang, sedih, dan netral. Model Emotion FastPitch dibandingkan langsung dengan model FastPitch yang berfungsi sebagai baseline. Model tersebut juga dipasangkan dengan model HifiGAN. Kedua model dievaluasi dengan menggunakan metode Mean Opinion Score (MOS). Model Emotion FastPitch mendapatkan nilai 3.77 ± 0.09257. Lebih besar dibandingkan model FastPitch dengan nilai 3.272 ± 0.1067.