Dalam beberapa tahun terakhir, teknologi TTS (Text-to-Speech) terus
berkembang. Banyak penelitian berfokus ke TTS multi-speaker yang mampu
melakukan kloning suara manusia dengan pengambilan karakteristik dari suara.
Pada 2023, Wang dkk. mengajukan pendekatan baru untuk sistem TTS kloning
suara menggunakan model bahasa neural codec berbasis Transformer, Vall-E,
yang mencapai kinerja state of the art. Untuk bahasa Indonesia, belum ada
penelitian TTS yang menggunakan pendekatan model bahasa seperti Vall-E.
Potensi perbaikan juga masih dapat dilakukan terhadap sintesis ucapan yang
dihasilkan oleh sistem dengan model Vall-E.
Tesis ini melakukan pembangunan sistem TTS dengan model Vall-E dan
perbaikan hasil sintesis dari sistem tersebut. Himpunan data yang mengandung
pasangan audio & transkrip diambil dari penelitian pemrosesan ucapan bahasa
Indonesia sebelumnya. Pemrosesan dan penyiapan data dilakukan dengan
mengubah audio menjadi token audio codec dan transkrip menjadi token fonem.
Setelah itu, model bahasa neural codec dilatih mengikuti Wang dkk. (2023)
dengan bantuan kakas open-source (Li, 2023). Komponen sistem kemudian
disusun agar dapat menghasilkan ucapan bahasa Indonesia. Sebagai bentuk
perbaikan, tesis ini juga menambahkan komponen speech enhancement pada
dengan implementasi menggunakan kakas Voicefixer (Liu dkk., 2022).
Penggunaan teknik speech enhancement dengan VoiceFixer meningkatkan nilai
MOS (mean opinion score) kealamian dari 3.34 sebelum enhancement menjadi
3.95. Hal ini menunjukkan penerapan speech enhancement mampu memperbaiki
kealamian sintesis ucapan. Secara keseluruhan, sistem TTS menghasilkan nilai
3.489 MOS kealamian dan 3.521 MOS kemiripan. Sistem TTS menghasilkan nilai
19.71% WER dan kemiripan vektor speaker embedding yang dapat
divisualisasikan. Hal ini menunjukkan sistem TTS dengan model Vall-E mampu
menghasilkan ucapan bahasa Indonesia dengan kemiripan yang baik terhadap
pembicara. Evaluasi juga menunjukkan pentingnya jumlah pembicara, pemilihan
data, komponen pemrosesan, pemodelan, dan durasi ucapan saat pelatihan
terhadap kualitas sintesis.