Penelitian ini bertujuan untuk membentuk sebuah sistem Text to Speech (TTS) dalam domain
Bahasa Indonesia yang mampu mengontrol prosodi dan emosinya. Penelitian ini mengajukan
sebuah model Emotion FastPitch yang merupakan pengembangan langsung dari model
FastPitch. Pengembangannya dimaksudkan agar fitur prosodi yang dihasilkan tidak hanya
diprediksi dari input kalimat, melainkan dari label emosinya juga. Untuk dapat menghasilkan
emosi dengan lebih baik, model Emotion FastPitch juga menangani fitur prosodi energi. Model
ini dipasangkan dengan model Vocoder HifiGAN. Semua model dilatih dengan sebuah korpus
ekspresif. Korpus tersebut berisi 11,500 pasang teks, audio, dan label emosi dengan total durasi
21 jam 57 menit. Korpus tersebut mengandung emosi marah, senang, sedih, dan netral.
Model Emotion FastPitch dibandingkan langsung dengan model FastPitch yang berfungsi
sebagai baseline. Model tersebut juga dipasangkan dengan model HifiGAN. Kedua model
dievaluasi dengan menggunakan metode Mean Opinion Score (MOS). Model Emotion
FastPitch mendapatkan nilai 3.77 ± 0.09257. Lebih besar dibandingkan model FastPitch
dengan nilai 3.272 ± 0.1067.