digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flip Book Dessy Rondang Monaomi

Dalam beberapa tahun terakhir, teknologi TTS (Text-to-Speech) terus berkembang. Banyak penelitian berfokus ke TTS multi-speaker yang mampu melakukan kloning suara manusia dengan pengambilan karakteristik dari suara. Pada 2023, Wang dkk. mengajukan pendekatan baru untuk sistem TTS kloning suara menggunakan model bahasa neural codec berbasis Transformer, Vall-E, yang mencapai kinerja state of the art. Untuk bahasa Indonesia, belum ada penelitian TTS yang menggunakan pendekatan model bahasa seperti Vall-E. Potensi perbaikan juga masih dapat dilakukan terhadap sintesis ucapan yang dihasilkan oleh sistem dengan model Vall-E. Tesis ini melakukan pembangunan sistem TTS dengan model Vall-E dan perbaikan hasil sintesis dari sistem tersebut. Himpunan data yang mengandung pasangan audio & transkrip diambil dari penelitian pemrosesan ucapan bahasa Indonesia sebelumnya. Pemrosesan dan penyiapan data dilakukan dengan mengubah audio menjadi token audio codec dan transkrip menjadi token fonem. Setelah itu, model bahasa neural codec dilatih mengikuti Wang dkk. (2023) dengan bantuan kakas open-source (Li, 2023). Komponen sistem kemudian disusun agar dapat menghasilkan ucapan bahasa Indonesia. Sebagai bentuk perbaikan, tesis ini juga menambahkan komponen speech enhancement pada dengan implementasi menggunakan kakas Voicefixer (Liu dkk., 2022). Penggunaan teknik speech enhancement dengan VoiceFixer meningkatkan nilai MOS (mean opinion score) kealamian dari 3.34 sebelum enhancement menjadi 3.95. Hal ini menunjukkan penerapan speech enhancement mampu memperbaiki kealamian sintesis ucapan. Secara keseluruhan, sistem TTS menghasilkan nilai 3.489 MOS kealamian dan 3.521 MOS kemiripan. Sistem TTS menghasilkan nilai 19.71% WER dan kemiripan vektor speaker embedding yang dapat divisualisasikan. Hal ini menunjukkan sistem TTS dengan model Vall-E mampu menghasilkan ucapan bahasa Indonesia dengan kemiripan yang baik terhadap pembicara. Evaluasi juga menunjukkan pentingnya jumlah pembicara, pemilihan data, komponen pemrosesan, pemodelan, dan durasi ucapan saat pelatihan terhadap kualitas sintesis.