digilib@itb.ac.id +62 812 2508 8800

23251030 Dhiya Ulhaq Dewangga.pdf
PUBLIC Dessy Rondang Monaomi

Disfonia adalah penyakit gangguan bicara paling banyak kedua di Amerika Serikat yang dapat menyerang siapa saja. Disfonia menyebabkan kesulitan dalam berkomunikasi dan berpotensi menurunkan kualitas hidup penderitanya. Terlebih lagi, penutur disfonia kesulitan dalam mengeluarkan suara serta merasa lelah dan sakit pada tenggorokan saat berbicara sehingga mempengaruhi ucapan. Solusi untuk memperbaiki kualitas ucapan penutur disfonia adalah melalui operasi atau terapi, namun hal ini membutuhkan dana yang tidak sedikit. Oleh karena itu, diperlukan solusi alternatif untuk meningkatkan kualitas ucapan, salah satunya adalah menggunakan sistem text-to-speech (TTS). Penelitian ini membangun sistem TTS bagi penutur disfonia dalam menghasilkan sintesis ucapan untuk membantu meningkatkan kualitas ucapan. Sistem TTS dibangun menggunakan model berbasis arsitektur adversarial networks yaitu YourTTS, dengan pendekatan kloning suara untuk menghasilkan sintesis ucapan dengan kemiripan suara yang tinggi menggunakan sampel data yang kecil. Untuk mengatasi kelemahan model YourTTS yaitu kurang jelasnya ucapan pada hasil sintesis ucapan, penelitian ini mengusulkan content text loss (CTL) sebagai tambahan nilai loss untuk membantu meningkatkan kejelasan ucapan. Evaluasi kinerja dilakukan secara subjektif dan objektif untuk menguji aspek kemiripan suara, kealamian ucapan, dan kejelasan ucapan. Pada kemiripan suara didapat nilai mean opinion score (MOS) sebesar 3,59, cosine similarity sebesar 0,883 dan nilai perceptual evaluation of speech quality (PESQ) sebesar 2,910. Pada kealamian ucapan didapat nilai MOS sebesar 3,37, dan NISQA-TTS sebesar 3,136. Pada kejelasan ucapan didapat nilai semantically unpredictable sentences (SUS) dengan persentase ketepatan kata sebesar 76,32% dan persentase ketepatan kalimat sebesar 63,12%, dan NISQA-TTS sebesar 3,136.