digilib@itb.ac.id +62 812 2508 8800

Penelitian ini menjelaskan mengenai pembangunan sistem Text to Speech (TTS) Ekspresif dalam domain Bahasa Indonesia. Model yang digunakan merupakan model Tacotron 2 yang ditambahkan dengan pendekatan Global Style Token (GST) dan vocoder Parallel WaveGAN. Model ini dilatih dengan pasangan teks dan audio referensi. Encoder pada model Tacotron 2 bertugas untuk mengekstrak fitur linguistik dari teks. Sementara pendekatan Global Style Token adalah sebuah fitur yang merupakan representasi emosi yang diambil dari audio referensi. Kedua fitur ini digabungkan dan diproses oleh decoder untuk membentuk Spectrogram. Hasil spectrogram diproses oleh vocoder Parallel WaveGAN sehingga menghasilkan output audio yang ekspresif. Model GST + Tacotron 2 dan vocoder Parallel WaveGAN dilatih secara bersamaan dengan sebuah korpus Ekspresif. Korpus Ekspresif berisi pasangan teks dan audio dalam emosi marah, senang, sedih, dan netral. Total ada 11.482 pasangan kalimat dan audio dengan durasi 21 jam 57 menit. Model GST + Tacotron 2 akan dibandingkan dengan model baseline yang merupakan model Tacotron 2 dengan vocoder Parallel WaveGAN. Kedua model diuji dengan Mean Opinion Score (MOS) dan AB testing. Hasil pengujian MOS model dengan arsitektur GST + Tacotron 2 menghasilkan nilai 3,90 ± 0,07. Lebih tinggi dibandingkan model baseline dengan nilai 3,33 ± 0,10. Hasilnya preferensi responden dari AB testing, 65,93% responden lebih memilih model GST + Tacotron 2 dibandingkan model baseline (34,07%).