digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Sistem text-to-speech (TTS) multibahasa adalah sistem yang menghasilkan ucapan dari teks dalam beberapa bahasa. Terkadang, kalimat teks mengandung bagian dalam beberapa bahasa, yang dikenal sebagai alih kode. Fenomena ini sering terjadi di Indonesia, terutama antara bahasa Indonesia-Inggris. Namun, belum ada penelitian yang membangun sistem TTS multibahasa yang menangani alih kode antara kedua bahasa ini. Model TTS autoregressive berbasis Tacotron 2 memiliki kelemahan seperti inferensi yang lambat dan pengucapan kata yang terulang atau terlewat. Sementara itu, model TTS non-autoregressive menghasilkan white noise ketika menyintesis ucapan lintas bahasa dengan suara pembicara referensi yang singkat. Model STEN-TTS dengan pendekatan Style-Enhanced Normalization (STEN) mengeliminasi white noise dan memberikan hasil baik pada lima bahasa, termasuk bahasa Indonesia dan Inggris, tetapi belum mampu melakukan alih kode. Penelitian ini menangani alih kode bahasa Indonesia-Inggris pada STEN-TTS, yang memiliki komponen konversi teks ke fonem, Style Encoder, encoder, language embedding, variance adaptor, decoder, dan STEN. Modifikasi STEN-TTS utamanya dilakukan dengan menambahkan komponen language identification pada konversi teks ke fonem menggunakan fine-tune BERT untuk mengidentifikasi bahasa per kata, serta menghapus komponen language embedding. Eksperimen menunjukkan bahwa model alih kode memiliki kealamian ucapan yang lebih baik, dengan peningkatan nilai MOS sebesar 1,216 menjadi 3,379 dibandingkan dengan baseline STEN-TTS bahasa Inggris, dan peningkatan sebesar 1,538 menjadi 3,379 dibandingkan dengan baseline STEN-TTS bahasa Indonesia. Model alih kode juga memiliki kejelasan ucapan yang lebih baik, dengan penurunan eror nilai WER sebesar 24,75% menjadi 12,87% dibandingkan dengan baseline STEN-TTS bahasa Inggris, serta penurunan sebesar 19,01% menjadi 12,87% dibandingkan dengan baseline STEN-TTS bahasa Indonesia.