Penelitian ini menjelaskan mengenai pembangunan sistem Text to Speech (TTS) Ekspresif
dalam domain Bahasa Indonesia. Model yang digunakan merupakan model Tacotron 2 yang
ditambahkan dengan pendekatan Global Style Token (GST) dan vocoder Parallel WaveGAN.
Model ini dilatih dengan pasangan teks dan audio referensi. Encoder pada model Tacotron 2
bertugas untuk mengekstrak fitur linguistik dari teks. Sementara pendekatan Global Style
Token adalah sebuah fitur yang merupakan representasi emosi yang diambil dari audio
referensi. Kedua fitur ini digabungkan dan diproses oleh decoder untuk membentuk
Spectrogram. Hasil spectrogram diproses oleh vocoder Parallel WaveGAN sehingga
menghasilkan output audio yang ekspresif. Model GST + Tacotron 2 dan vocoder Parallel
WaveGAN dilatih secara bersamaan dengan sebuah korpus Ekspresif. Korpus Ekspresif berisi
pasangan teks dan audio dalam emosi marah, senang, sedih, dan netral. Total ada 11.482
pasangan kalimat dan audio dengan durasi 21 jam 57 menit.
Model GST + Tacotron 2 akan dibandingkan dengan model baseline yang merupakan model
Tacotron 2 dengan vocoder Parallel WaveGAN. Kedua model diuji dengan Mean Opinion
Score (MOS) dan AB testing. Hasil pengujian MOS model dengan arsitektur GST + Tacotron
2 menghasilkan nilai 3,90 ± 0,07. Lebih tinggi dibandingkan model baseline dengan nilai 3,33
± 0,10. Hasilnya preferensi responden dari AB testing, 65,93% responden lebih memilih model
GST + Tacotron 2 dibandingkan model baseline (34,07%).
Perpustakaan Digital ITB