digilib@itb.ac.id +62 812 2508 8800

suara. Untuk menghasilkan jenis suara lain, maka cara paling sederhana adalah membangun model sintesis baru untuk setiap jenis suara yang dikehendaki, namun hal itu membutuhkan data dan sumber daya komputasi yang besar. Untuk mengatasi hal tersebut, beberapa arsitektur sistem sintesis mampu menghasilkan ucapan hasil sintesis dengan penggunaan data dan komputasi yang lebih efisien. Salah satu contoh arsitektur yang dimaksud adalah arsitektur Deep Voice 3. Pada penelitian ini dibangun sistem sintesis ucapan multipembicara untuk bahasa Indonesia. Sistem yang dibangun mengadopsi arsitektur Deep Voice 3, dengan tambahan beberapa komponen praproses dan post-process, beberapa di antaranya spesifik untuk bahasa Indonesia. Sistem dibangun menggunakan dataset multipembicara yang mengandung ucapan dari 145 penutur berbahasa Indonesia. Sistem ini dievaluasi secara subjektif untuk menilai kealamian, kemiripan ucapan dengan penutur asli serta kejelasan ucapan hasil sintesis. Hasil pengujian menunjukkan bahwa MOS (mean opinion score) untuk kealamian ucapan mencapai 3,39 dan MOS untuk kemiripan ucapan mencapai 3,11. Pada pengujian kejelasan ucapan yang menggunakan SUS (semantically unpredictable sentence), diperoleh persentase ketepatan kalimat sebesar 73,88% dan persentase ketepatan kata mencapai 93,48%.