Perpustakaan Digital - Digilib ITB

SISTEM TEXT TO SPEECH UNTUK GANGGUAN BICARA DISFONIA MENGGUNAKAN ARSITEKTUR ADVERSARIAL NETWORKS DENGAN PENDEKATAN KLONING SUARA

290 views

Penulis	:	Dhiya Ulhaq Dewangga [23521030]
Kontributor / Dosen Pembimbing	:	Dessi Puji Lestari, S.T, M.Eng., Ph.D.
Jenis Koleksi	:	Tesis
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	gangguan bicara, disfonia, text-to-speech, sintesis ucapan, kloning suara, adversarial network.
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	24 Jul 2023

23251030 Dhiya Ulhaq Dewangga.pdf

PUBLIC Dessy Rondang Monaomi

Disfonia adalah penyakit gangguan bicara paling banyak kedua di Amerika Serikat yang dapat menyerang siapa saja. Disfonia menyebabkan kesulitan dalam berkomunikasi dan berpotensi menurunkan kualitas hidup penderitanya. Terlebih lagi, penutur disfonia kesulitan dalam mengeluarkan suara serta merasa lelah dan sakit pada tenggorokan saat berbicara sehingga mempengaruhi ucapan. Solusi untuk memperbaiki kualitas ucapan penutur disfonia adalah melalui operasi atau terapi, namun hal ini membutuhkan dana yang tidak sedikit. Oleh karena itu, diperlukan solusi alternatif untuk meningkatkan kualitas ucapan, salah satunya adalah menggunakan sistem text-to-speech (TTS). Penelitian ini membangun sistem TTS bagi penutur disfonia dalam menghasilkan sintesis ucapan untuk membantu meningkatkan kualitas ucapan. Sistem TTS dibangun menggunakan model berbasis arsitektur adversarial networks yaitu YourTTS, dengan pendekatan kloning suara untuk menghasilkan sintesis ucapan dengan kemiripan suara yang tinggi menggunakan sampel data yang kecil. Untuk mengatasi kelemahan model YourTTS yaitu kurang jelasnya ucapan pada hasil sintesis ucapan, penelitian ini mengusulkan content text loss (CTL) sebagai tambahan nilai loss untuk membantu meningkatkan kejelasan ucapan. Evaluasi kinerja dilakukan secara subjektif dan objektif untuk menguji aspek kemiripan suara, kealamian ucapan, dan kejelasan ucapan. Pada kemiripan suara didapat nilai mean opinion score (MOS) sebesar 3,59, cosine similarity sebesar 0,883 dan nilai perceptual evaluation of speech quality (PESQ) sebesar 2,910. Pada kealamian ucapan didapat nilai MOS sebesar 3,37, dan NISQA-TTS sebesar 3,136. Pada kejelasan ucapan didapat nilai semantically unpredictable sentences (SUS) dengan persentase ketepatan kata sebesar 76,32% dan persentase ketepatan kalimat sebesar 63,12%, dan NISQA-TTS sebesar 3,136.

Perpustakaan Digital ITB

SISTEM TEXT TO SPEECH UNTUK GANGGUAN BICARA DISFONIA MENGGUNAKAN ARSITEKTUR ADVERSARIAL NETWORKS DENGAN PENDEKATAN KLONING SUARA

Artikel Terkait