Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Kloning suara adalah proses sintesis ucapan menggunakan data secara efisien untuk
menghasilkan berbagai karakteristik suara pembicara. Metode ini dikembangkan
untuk mengatasi keterbatasan model text-to-speech konvensional yang umumnya
hanya menghasilkan satu jenis karakteristik suara. Fokus pengembangan model ini
adalah membangun model yang dapat melakukan pembelajaran secara zero-shot.
Untuk mencapai sintesis suara berkualitas tinggi, penting untuk memperhatikan
beberapa hal seperti ketersedian dan kualitas dataset yang digunakan serta
pemilihan model TTS yang tepat dalam pembangunan model kloning suara.
Penelitian ini berfokus dalam pembangunan model kloning suara untuk bahasa
Indonesia dengan memanfaatkan model YourTTS untuk menghasilkan kemiripan
dan kealamian suara yang tinggi. Model YourTTS dipilih karena kemampuannya
melakukan fine-tuning dan mendukung multibahasa. Hal ini cocok dengan
karakteristik dataset Indonesia yang terbatas. Pada penelitian ini, dilakukan dua
eksperimen untuk menghasilkan dua model sintesis suara, dengan perbedaan ada
pada penetapan ukuran segmen spectrogram, skala noise inferensi, skala panjang,
dan skala noise pada duration predictor. Pada kedua model ini, dilakukan evaluasi
secara objektif menggunakan metrik speaker encoder cosine similarity (SECS)
serta evaluasi secara subjektif menggunakan metrik mean opinion score (MOS)
untuk menilai kemiripan dan kealamian suara yang dihasilkan.
Hasil penilaian objektif dari kedua model yang dibangun menunjukkan nilai rata-
rata SECS sebesar 0,8413 untuk pembicara seen dan 0,8603 untuk pembicara seen.
Hasil penilaian subjektif menunjukkan nilai kemiripan MOS sebesar 3,62 untuk
model pertama dan 3,49 untuk model kedua, serta nilai kealamian MOS sebesar
3,16 untuk model pertama dan 3,29 untuk model kedua. Berdasarkan penilaian
subjektif dan objektif, model yang dikembangkan sudah menunjukkan kualitas
sintesis yang cukup tinggi, baik dari segi kemiripan maupun kealamian suara.