Perpustakaan Digital - Digilib ITB

SISTEM PENYINTESIS UCAPAN EKSPRESIF UNTUK MEMBACAKAN NOVEL BAHASA INDONESIA BERBASIS DEEP NEURAL NETWORK MENGGUNAKAN PENDEKATAN GLOBAL STYLE TOKEN DAN TACOTRON 2

109 views

Save At List

Penulis	:	Moch. Azhar Dhiaulhaq [13517047]
Kontributor / Dosen Pembimbing	:	Dessi Puji Lestari, S.T., M.Eng., Ph.D.
Jenis Koleksi	:	Tugas Akhir
Tahun Terbit	:
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	Sistem TTS Ekspresif, Tacotron 2, Parallel WaveGAN, Global Style Token, MOS
Sumber	:
Staf Input/Edit	:	karya
File	:	0 file
Tanggal Input	:	21 Jun 2021

Penelitian ini menjelaskan mengenai pembangunan sistem Text to Speech (TTS) Ekspresif dalam domain Bahasa Indonesia. Model yang digunakan merupakan model Tacotron 2 yang ditambahkan dengan pendekatan Global Style Token (GST) dan vocoder Parallel WaveGAN. Model ini dilatih dengan pasangan teks dan audio referensi. Encoder pada model Tacotron 2 bertugas untuk mengekstrak fitur linguistik dari teks. Sementara pendekatan Global Style Token adalah sebuah fitur yang merupakan representasi emosi yang diambil dari audio referensi. Kedua fitur ini digabungkan dan diproses oleh decoder untuk membentuk Spectrogram. Hasil spectrogram diproses oleh vocoder Parallel WaveGAN sehingga menghasilkan output audio yang ekspresif. Model GST + Tacotron 2 dan vocoder Parallel WaveGAN dilatih secara bersamaan dengan sebuah korpus Ekspresif. Korpus Ekspresif berisi pasangan teks dan audio dalam emosi marah, senang, sedih, dan netral. Total ada 11.482 pasangan kalimat dan audio dengan durasi 21 jam 57 menit. Model GST + Tacotron 2 akan dibandingkan dengan model baseline yang merupakan model Tacotron 2 dengan vocoder Parallel WaveGAN. Kedua model diuji dengan Mean Opinion Score (MOS) dan AB testing. Hasil pengujian MOS model dengan arsitektur GST + Tacotron 2 menghasilkan nilai 3,90 ± 0,07. Lebih tinggi dibandingkan model baseline dengan nilai 3,33 ± 0,10. Hasilnya preferensi responden dari AB testing, 65,93% responden lebih memilih model GST + Tacotron 2 dibandingkan model baseline (34,07%).

Perpustakaan Digital ITB

SISTEM PENYINTESIS UCAPAN EKSPRESIF UNTUK MEMBACAKAN NOVEL BAHASA INDONESIA BERBASIS DEEP NEURAL NETWORK MENGGUNAKAN PENDEKATAN GLOBAL STYLE TOKEN DAN TACOTRON 2

Artikel Terkait

Daftar Simpan Judul

SISTEM PENYINTESIS UCAPAN EKSPRESIF UNTUK MEMBACAKAN NOVEL BAHASA INDONESIA BERBASIS DEEP NEURAL NETWORK MENGGUNAKAN PENDEKATAN GLOBAL STYLE TOKEN DAN TACOTRON 2

Artikel Terkait