digilib@itb.ac.id +62 812 2508 8800

13518014 Ignatius David Partogi.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Sistem smart speaker yang beredar pada umumnya menggunakan bahasa Inggris, padahal kemampuan berbahasa Inggris orang Indonesia tergolong rendah. Sistem smart speaker memiliki tiga buah komponen, yaitu Automatic Speech Recognition (ASR), Natural Language Processing (NLP), dan Text-to-Speech (TTS). Sistem End-to-End (E2E) TTS merupakan sistem TTS yang dapat langsung memproses masukan teks menjadi keluaran berupa audio dan memiliki dua bagian, yaitu spectrogram generator dan vocoder. Sistem TTS pada penelitian ini dibangun dengan menggunakan Tacotron 2 yang merupakan state of the art dalam TTS sebagai spectrogram generator dan Parallel WaveGAN sebagai vocoder. Set data yang digunakan pada penelitian berupa 3000 buah pasangan audio dan kalimat yang bersumber dari audiobook buku-buku sekolah dan kuliah berbahasa Indonesia, dengan durasi total selama 9 jam 22 menit 30 detik. Pengujian Mean Opinion Score (MOS) dari sistem TTS pada penelitian ini menghasilkan skor 3,24 ± 0,29. Adapun pengujian Semantically Unpredictable Sentence (SUS) dari sistem TTS pada penelitian ini menghasilkan nilai akurasi (91.82 ± 7.63)%.