Disfonia adalah penyakit gangguan bicara paling banyak kedua di Amerika Serikat
yang dapat menyerang siapa saja. Disfonia menyebabkan kesulitan dalam
berkomunikasi dan berpotensi menurunkan kualitas hidup penderitanya. Terlebih
lagi, penutur disfonia kesulitan dalam mengeluarkan suara serta merasa lelah dan
sakit pada tenggorokan saat berbicara sehingga mempengaruhi ucapan. Solusi
untuk memperbaiki kualitas ucapan penutur disfonia adalah melalui operasi atau
terapi, namun hal ini membutuhkan dana yang tidak sedikit. Oleh karena itu,
diperlukan solusi alternatif untuk meningkatkan kualitas ucapan, salah satunya
adalah menggunakan sistem text-to-speech (TTS).
Penelitian ini membangun sistem TTS bagi penutur disfonia dalam menghasilkan
sintesis ucapan untuk membantu meningkatkan kualitas ucapan. Sistem TTS
dibangun menggunakan model berbasis arsitektur adversarial networks yaitu
YourTTS, dengan pendekatan kloning suara untuk menghasilkan sintesis ucapan
dengan kemiripan suara yang tinggi menggunakan sampel data yang kecil. Untuk
mengatasi kelemahan model YourTTS yaitu kurang jelasnya ucapan pada hasil
sintesis ucapan, penelitian ini mengusulkan content text loss (CTL) sebagai
tambahan nilai loss untuk membantu meningkatkan kejelasan ucapan.
Evaluasi kinerja dilakukan secara subjektif dan objektif untuk menguji aspek
kemiripan suara, kealamian ucapan, dan kejelasan ucapan. Pada kemiripan suara
didapat nilai mean opinion score (MOS) sebesar 3,59, cosine similarity sebesar
0,883 dan nilai perceptual evaluation of speech quality (PESQ) sebesar 2,910. Pada
kealamian ucapan didapat nilai MOS sebesar 3,37, dan NISQA-TTS sebesar 3,136.
Pada kejelasan ucapan didapat nilai semantically unpredictable sentences (SUS)
dengan persentase ketepatan kata sebesar 76,32% dan persentase ketepatan kalimat
sebesar 63,12%, dan NISQA-TTS sebesar 3,136.