digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Kloning suara adalah proses sintesis ucapan menggunakan data secara efisien untuk menghasilkan berbagai karakteristik suara pembicara. Metode ini dikembangkan untuk mengatasi keterbatasan model text-to-speech konvensional yang umumnya hanya menghasilkan satu jenis karakteristik suara. Fokus pengembangan model ini adalah membangun model yang dapat melakukan pembelajaran secara zero-shot. Untuk mencapai sintesis suara berkualitas tinggi, penting untuk memperhatikan beberapa hal seperti ketersedian dan kualitas dataset yang digunakan serta pemilihan model TTS yang tepat dalam pembangunan model kloning suara. Penelitian ini berfokus dalam pembangunan model kloning suara untuk bahasa Indonesia dengan memanfaatkan model YourTTS untuk menghasilkan kemiripan dan kealamian suara yang tinggi. Model YourTTS dipilih karena kemampuannya melakukan fine-tuning dan mendukung multibahasa. Hal ini cocok dengan karakteristik dataset Indonesia yang terbatas. Pada penelitian ini, dilakukan dua eksperimen untuk menghasilkan dua model sintesis suara, dengan perbedaan ada pada penetapan ukuran segmen spectrogram, skala noise inferensi, skala panjang, dan skala noise pada duration predictor. Pada kedua model ini, dilakukan evaluasi secara objektif menggunakan metrik speaker encoder cosine similarity (SECS) serta evaluasi secara subjektif menggunakan metrik mean opinion score (MOS) untuk menilai kemiripan dan kealamian suara yang dihasilkan. Hasil penilaian objektif dari kedua model yang dibangun menunjukkan nilai rata- rata SECS sebesar 0,8413 untuk pembicara seen dan 0,8603 untuk pembicara seen. Hasil penilaian subjektif menunjukkan nilai kemiripan MOS sebesar 3,62 untuk model pertama dan 3,49 untuk model kedua, serta nilai kealamian MOS sebesar 3,16 untuk model pertama dan 3,29 untuk model kedua. Berdasarkan penilaian subjektif dan objektif, model yang dikembangkan sudah menunjukkan kualitas sintesis yang cukup tinggi, baik dari segi kemiripan maupun kealamian suara.